现在网页采集都用啥技术?

SK-J 发布于 2014/10/22 10:09
阅读 1K+
收藏 4

做舆情分析的项目,做了一年了。

网页采集从最初的httpclient + jsoup,每个人负责几个网站,刀耕火种,挖煤一般的一个网站一个网站开发。

后来,对这种工作做了些自动化的提升,每个网站可以配置多个css选择器,比如 div.title 是标题, p.wrap_content 是正文等。只不过有些网站的内容写在js里,或者各种奇怪的方式还是无法满足。

如今又要采集评论,实在是有点恶心的感觉。是不是我用的技术太落后了,似乎听过有基于视觉的网页分析,太高大上了。不知道大家是否了解相关的好用滴技术给详细地分享一下下?

加载中
0
Ryan-瑞恩
Ryan-瑞恩
JSOUP 比较普遍。
0
牛奋Debug
牛奋Debug
没有过时的技术,只有不断变更的需求
0
waterz
waterz
好相似的经历,做这种活的确要做吐
0
wyh_d_void
wyh_d_void
Jsoup还有在用么?见过的一些做爬虫的都是用python或者一些开源框架!
0
me坤子
me坤子
Python的urllib2等等 http://www.xuyukun.com
0
beyondforever68
beyondforever68
这种活应该属于损阴德的吧
0
loyal
loyal
如果你是定向爬虫,就只能自己这么干,没办法的事.在怎么高级的东西,到最后你还是会遇到更多的问题,而且别人的框架你也改不动...还是自己httpclient+jsoup吧.比较靠谱.自己适当的包装下就行了.
0
FalconChen
FalconChen
这个维护累死人
0
sunzhyng
sunzhyng

这要是个位数还可以,再多的话,后期工作量太大。

可以参照搜索引擎的爬虫抓取

返回顶部
顶部