关于网络爬虫

信马由缰 发布于 2015/09/26 22:46
阅读 430
收藏 0
有谁知道实现爬虫方法的软件,有哪些搭配组合。。。举个粟子呗。。感激不尽……
加载中
0
吐槽的达达仔
吐槽的达达仔

phantomjs + carperjs 

scrapy

htmlunit

信马由缰
谢谢。
0
cxuc
cxuc
python scrapy
信马由缰
谢谢
0
数据工厂
数据工厂
http://www.shenjianshou.cn/
0
数据工厂V
数据工厂V
这里有个现有的例子,你可以参考一下: 

如何爬取大众点评网上的商家信息(有栗子、附代码) 

https://www.douban.com/group/topic/86269731/
0
大数据专家

推荐个很好用的软件,我也是一直在用的,就是前嗅的ForeSpider软件,
我是一直用过很多的采集软件,最后选择的前嗅的软件,ForeSpider这款软件是可视化的操作。简单配置几步就可以采集。如果网站比较复杂,这个软件自带爬虫脚本语言,通过写几行脚本,就可以采集所有的公开数据。

软件还自带免费的数据库,数据采集直接存入数据库,也可以导出成excel文件。
如果自己不想配置,前嗅可以配置采集模板,我的模板就是从前嗅购买的。

另外他们公司不光是软件好用,还有自己的数据分析系统,直接采集完数据后入库,ForeSpider内部集成了数据挖掘的功能,可以快速进行聚类分类、统计分析等,采集结果入库后就可以形成分析报表。

最主要的是他采集速度非常快,我之前用八爪鱼的软件,开服务器采,用了一个月采了100万条,后来我用ForeSpider。笔记本采的,一天就好几百万条。

这些都是我一直用前嗅的经验心得,你不妨试试。

建议你可以下载一个免费版试一试,免费版不限制功能,没有到期时间。

返回顶部
顶部