网络舆情爬虫开发之英雄帖?

jonny201251 发布于 2016/11/09 11:14
阅读 225
收藏 1
开发需求   用于网络舆情信息采集与分析的软件(接口级)            
功能描述                                                      
1. 信息采集类型:新闻、政务网站、论坛、博客、微信、微博、视频、境外中文媒体,约3万站点                   
2. 网页解析字段项:标题、时间、作者、正文、正文摘要、URL、评论数、转载数等                               
3. 数据分析类型:舆情常规的语义分析、热点分析                
4. 全文检索功能                                         
                                                     
技术要求                                                      
1) 部署\OS:云服务器\centos                                
2) 网络爬虫:Nutch1.6 \ Nutch1.7                               
3) 离线计算\实时计算:hadoop2.x \ storm                  
4) 数据采集\消息队列:flume \ Kafka                    
5) DB:hbase \ mongodb                                      
6) 检索:solr                                          
7) 其他:开源、无限制                                  
                                                    
其他要求                                                        
1) 24小时运行                                         
2) 开发文档完整                                        
3) 除首次外,完成单次信息采集解析 < 4小时                         
                                                    
联系方式   北京弘易软件 张工 手机:13466796522 QQ:1075455138   
加载中
0
leo108
leo108
英雄帖不带价格算啥英雄帖
leo108
leo108
回复 @乌龟壳 : 连个基本的范围都没有,就和薪资面议一样,是浪费双方时间。
乌龟壳
乌龟壳
给联系方式就是要去谈的嘛,这个比较正常的
0
红薯
红薯

请发到众包平台 zb.oschina.net


0
自风
自风
爬虫这项可以使用#Spiderman# 第二代支持分布式,完全开源免费哦
0
s
sosozzzx

推荐使用神箭手云爬虫,完全在云上编写和执行爬虫,不需要配置任何开发环境,快速开发快速实现。 

简单几行 javascript 就可以实现复杂的爬虫,同时提供很多功能函数:反反爬虫、 js 渲染、数据发布、图表分析、反防盗链等,这些在开发爬虫过程中经常会遇到的问题都由神箭手帮你解决。 

返回顶部
顶部