选择适合的爬虫软件

怯步者笔记 发布于 2015/07/03 11:18
阅读 326
收藏 1
各位大神,我是非科班出身,但是我的研究方向是市场科学这一款,且是关于网络口碑(评价)数、量级及趋势等方向的,请问是否有哪一款爬虫软件可以推荐给我,便于这方面的数据采集,我想学习。非常感谢!
加载中
0
moyiguke
moyiguke

推荐scrapy(python爬虫框架)https://github.com/scrapy/scrapy

如果量级上去了,可以扩展成分布式的:https://github.com/darkrho/scrapy-redis

也有可视化的软件,不需要编码。https://github.com/scrapinghub/portia


0
怯步者笔记
怯步者笔记
谢谢回答!劳烦再咨询一下,你推荐的软件是否有教材或教程之类的?
小红书
小红书
有采集服务网站,搞业务的花点儿钱简单粗暴,别在这上面浪费时间了…HTML CSS JS PYTHON SCRAPY REGEX DB SERVER XXX一套撸过去黄花菜都凉了…有时间折腾我就不说什么了…
0
moyiguke
moyiguke

引用来自“怯步者笔记”的评论

谢谢回答!劳烦再咨询一下,你推荐的软件是否有教材或教程之类的?

按照教程搭建开发环境:http://doc.scrapy.org/en/1.0/intro/install.html

然后直接搜索 “scrapy教程”,有速成的例子和一些原理讲解。自己实现一遍作为入门作。

之后看官网:http://scrapy.org/。比较全。文档在Document 里面。可以选择下载看,或者在线看。

0
数据工厂
数据工厂
推荐你试试神箭手云爬虫(http://www.shenjianshou.cn),可以直接爬取数据,并一键生成分析图表,并且都是在云上进行,不需要下载源码和安装什么软件。
0
大数据专家

推荐个很好用的软件,我也是一直在用的,就是前嗅的ForeSpider软件,
我是一直用过很多的采集软件,最后选择的前嗅的软件,ForeSpider这款软件是可视化的操作。简单配置几步就可以采集。支持登录、Cookie、Post、https、验证码、JS、Ajax、关键词搜索等技术,一般网页上的公开数据基本都可以采到。如果网站比较复杂,这个软件自带爬虫脚本语言,通过写几行脚本,就可以采集所有的公开数据。

软件还自带免费的数据库,数据采集直接存入数据库,也可以导出成excel文件。
如果自己不想配置,前嗅可以配置采集模板,我的模板就是从前嗅购买的。

另外他们公司不光是软件好用,还有自己的数据分析系统,直接采集完数据后入库,ForeSpider内部集成了数据挖掘的功能,可以快速进行聚类分类、统计分析等,采集结果入库后就可以形成分析报表。

最主要的是他采集速度非常快,我之前用八爪鱼的软件,开服务器采,用了一个月采了100万条,后来我用ForeSpider。笔记本采的,一天就好几百万条。

这些都是我一直用前嗅的经验心得,你不妨试试。

建议你可以下载一个免费版试一试,免费版不限制功能,没有到期时间。

返回顶部
顶部