做舆情分析的项目,做了一年了。
网页采集从最初的httpclient + jsoup,每个人负责几个网站,刀耕火种,挖煤一般的一个网站一个网站开发。
后来,对这种工作做了些自动化的提升,每个网站可以配置多个css选择器,比如 div.title 是标题, p.wrap_content 是正文等。只不过有些网站的内容写在js里,或者各种奇怪的方式还是无法满足。
如今又要采集评论,实在是有点恶心的感觉。是不是我用的技术太落后了,似乎听过有基于视觉的网页分析,太高大上了。不知道大家是否了解相关的好用滴技术给详细地分享一下下?
这要是个位数还可以,再多的话,后期工作量太大。
可以参照搜索引擎的爬虫抓取