求网络舆情爬虫系统?

jonny201251 发布于 2016/11/09 11:11
阅读 1K+
收藏 2

网络舆情爬虫开发之英雄帖      

开发需求 

用于网络舆情信息采集与分析的软件(接口级)           

功能描述 

                                                   

1.   信息采集类型:新闻、政务网站、论坛、博客、微信、微博、视频、境外中文媒体,约3万站点                  

2.   网页解析字段项:标题、时间、作者、正文、正文摘要、URL、评论数、转载数等                              

3.   数据分析类型:舆情常规的语义分析、热点分析               

4.  全文检索功能                                        

                                                    

技术要求 

                                                   

1)   部署\OS:云服务器\centos                                

2)   网络爬虫:Nutch1.6 \ Nutch1.7                              

3)   离线计算\实时计算:hadoop2.x \ storm                 

4)   数据采集\消息队列:flume \ Kafka                   

5)   DBhbase \ mongodb                                     

6)   检索:solr                                         

7)   其他:开源、无限制                                 

                                                   

其他要求   

                                                   

1)   24小时运行                                        

2)   开发文档完整                                       

3)   除首次外,完成单次信息采集解析 < 4小时                         

                                                   

联系方式 

北京弘易软件 张工 手机:13466796522 QQ:1075455138  

加载中
0
s
sosozzzx

你可以试试【神箭手云爬虫开发平台。】

神箭手云爬虫是一个帮助JS开发者快速开发爬虫系统的SaaS服务平台。神箭手提供上手简单,灵活开放的云爬虫开发框架,让开发者只需要在线写几行js代码就可以实现一个爬虫。并且爬虫将自动运行在云服务器上,爬取速度更快,效率更高。

0
大数据专家

我建议使用前嗅的ForeSpider数据采集软件,这款软件操作可视化,使用简易,支持登录、Cookie、Post、https、验证码、JS、Ajax、关键词搜索等技术,一般网页上的公开数据基本都可以采到。如果网站比较复杂,软件里有自带的爬虫脚本语言,通过写脚本,就能完全采集数据了。
我之前是采集过京东的商品评论,不仅采集了数据而且能够在软件里进行数据挖掘和分类、统计、数据分析。
ForeSpider内部集成了数据挖掘的功能,可以快速进行聚类分类、统计分析等,采集结果入库后就可以形成分析报表。
软件还自带免费的数据库,数据采集直接存入数据库,也可以导出成excel文件。
所以你可以去下载免费版先试试看,免费版不限制采集功能,也不限制时间。并且有详细的操作手册可以学习。如果自己不想学习,可以让前嗅进行配置。
而且还有客服可以教你怎样用,有问题出错了客服会远程操作,非常好的服务态度。
我也是一直使用这款软件,非常强大,推荐给你希望对你有帮助。

返回顶部
顶部