论坛数据采集策略???

java10001 发布于 2014/03/04 20:09
阅读 373
收藏 2

怎么样采集论坛中有最新回复的帖子和评论,这个有木有好一点的策略?

比如:A帖采集过,后来有了新的回复,需要再次采集,这种情况有木有好一点的办法快速发现并采集的策略?

另外论坛评论提取有木有很一点测提取算法呢?比如:结构相似度算法

加载中
0
最美不过相识
最美不过相识
在数据库存放帖子路径,以及最后抓取到的回复页数以及评论条数, 重新采集的时候直接调到最后抓取的位置...
0
java10001
java10001

引用来自“最美不过相识”的答案

在数据库存放帖子路径,以及最后抓取到的回复页数以及评论条数, 重新采集的时候直接调到最后抓取的位置...
你说的是一个办法,我再想有木有更好地方式,坐等最佳答案
0
龙上
龙上
直接连接到对方数据库。没有这个更好的了
0
lazyphp
lazyphp
入库,定时执行。
0
oO脾气不坏Oo
oO脾气不坏Oo
第一个问题可以考虑统计评论数来判断,或者直接比较最后一条的发表时间是不是更新了。第二个不现实,完全通用的不可能的,现在论坛一部分是生成静态页,很多采用ajax加载评论,极个别比较狠的完全js动态处理,可以考虑分类实现几个采集器,具体的提取细节通过配置实现。
0
java10001
java10001

引用来自“lazyphp”的答案

入库,定时执行。
0
java10001
java10001

引用来自“oO脾气不坏Oo”的答案

第一个问题可以考虑统计评论数来判断,或者直接比较最后一条的发表时间是不是更新了。第二个不现实,完全通用的不可能的,现在论坛一部分是生成静态页,很多采用ajax加载评论,极个别比较狠的完全js动态处理,可以考虑分类实现几个采集器,具体的提取细节通过配置实现。

你说的是不错,评论数是可行的方案之一

0
数据工厂
数据工厂
http://www.shenjianshou.cn/index.php?r=market/configList 有现成的直接用
0
s
sosozzzx
推荐使用神箭手云爬虫,完全在云上编写和执行爬虫,不需要配置任何开发环境,快速开发快速实现。 

简单几行 javascript 就可以实现复杂的爬虫,同时提供很多功能函数:反反爬虫、 js 渲染、数据发布、图表分析、反防盗链等,这些在开发爬虫过程中经常会遇到的问题都由神箭手帮你解决。 

返回顶部
顶部