本站使用 jsoup 来解析 HTML。 jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据...
  • 0投票
  • 6已采纳
  • 9K+浏览

Jsoup 采集回来的信息出现乱码

Document doc = Jsoup.connect(URL)timeout(1000).get();  String docStr = doc.to...
  • 0投票
  • 1回答
  • 399浏览

jsoup提取网页表格

java编程,利用jsoup提取网页表格,判断表格是否是规则的几行几列,连接数据库建立相应的表格。希望大神能够帮忙解决。   以下是我写的一点代码,能在原...
  • -1投票
  • 7已采纳
  • 1K+浏览

网络爬虫,java语言写的,爬不到正确的网页源码,百思不得其解,不知问题症结在哪里?求助爬虫前辈们

@黄亿华 你好,想跟你请教个问题: 有幸发现了这个网站,拜读了大神们关于网络爬虫的博客,受益良多。 作为爬虫方面的小白,眼下我也正在开展爬虫的一个工作内容...
  • 0投票
  • 3已采纳
  • 452浏览

对爬虫爬取到的数据管理

大家在管理爬取到数据的时候,一般对异常数据是怎么进行防御的? 比如对一个网站的商品爬取下来后,每天都自动更新最新的信息,但是如果目标网站大批量返回错误数据...
  • 0投票
  • 0回答
  • 271浏览

Jsoup抓取网页数据乱码的问题

我从一个网站抓取数据,网页内容有时候会出现繁体字(估计是香港台湾佬)。这个时候问题出现了。我本地统一UTF-8,他网站是gb2312,为什么网页的简体字来...
  • 0投票
  • 3回答
  • 1K+浏览

Jsoup如何处理延时加载的内容

部分内容是延时加载的,因为没有区分这一类内容的特定标志,也不知道什么时候加载完成,对于这一类页面有什么好的处理方式,这有个例子 <div id="dela...
  • 0投票
  • 2回答
  • 255浏览

关于Jsoup爬虫抓取数据

想请教下 要怎么去获取分类大数据呢 像网页我们点击热门得到热门大数据 点击新上榜获取新上榜大数据 我是用jsoup爬虫抓取数据的   抓取的连接是http...
  • 0投票
  • 3回答
  • 297浏览

jsoup类选择器不会用,求指路

使用jsoup如何根据类选择器获取link_title这个Element,然后再获取其子,拿到“  Android安全攻防战,反编译与混淆技术完全解析(上...
  • 0投票
  • 20回答
  • 1K+浏览

现在网页采集都用啥技术?

做舆情分析的项目,做了一年了。 网页采集从最初的httpclient + jsoup,每个人负责几个网站,刀耕火种,挖煤一般的一个网站一个网站开发。 后来...
  • 0投票
  • 8回答
  • 1K+浏览

网络爬虫 Jsoup

请问有什么办法可以实现定时的网络爬虫呢?   在SSH框架里面,我只知道有spring的任务调度。。
顶部