怎样智能抓取到给定页面创建的时间和标签

i-java 发布于 2013/12/07 20:58
阅读 111
收藏 0

请问下,假如我有N个开源中国的URL,这些页面可以是博客模块里面的,也可以是资讯或其他模块的文章,我要根据这些URL来抓取每篇文章发表的时间和其所属的标签,有没有什么智能的办法呀?求解答,谢谢。

如图

加载中
0
黄亿华
黄亿华

目前来看,没有通用方案。

即使是抽取正文的Readability算法,准确率也达不到100%,不能适合所有应用场景(比如抓取正文做分析是没问题,但是如果最终结果直接面向用户,可能就会有问题)。

可能有些机器学习的方法,但是我觉得太复杂,而且同样也达不到100%。

0
Timco
Timco
感觉只能根据不同的版块的url,进行分类后提取
返回顶部
顶部