PHP如何搞定网页文章正文智能提取

eechen的粉丝 发布于 2013/12/23 18:32
阅读 2K+
收藏 1
PHP

要求我把原来的采集功能修改下:原来的采集功能填写采集列表和内容规则

现在说采集功能不太智能,要我现在做的智能一点,说填写采集规则太麻烦了,要只填写列表就可以自动采集。

于是。。。。。

所以我觉得正文智能采集比较麻烦。看看有没有好的例子。

前面一贴被各种网友吐槽,分享方法的没有几个,可是没办法,要我把这个实现。

意思是 这个要求 如果我不能实现,表示我技术很菜。


加载中
1
铂金小狗
铂金小狗

搞清楚这个问题..你可以年薪1000K了....

你觉得年薪1000K的有时间教导你么?....

eechen的粉丝
eechen的粉丝
看来我只有自己研究研究了。。。。
1
Tuesday
Tuesday
目测楼主要跳槽了, 祝好运.
0
陨落人间
陨落人间
智能采集,你要的不是采集,你要的是蜘蛛或搜索引擎的抓取技术
eechen的粉丝
eechen的粉丝
那难不难呢
0
lazyphp
lazyphp

要做到真正的智能采集,这个需要不断对页面进行分析,让机器进行学习。首先,撸住你要解决的就是,如何让机器自动学习。搞会这点,编写智能采集就不成问题了。

我给撸住的解决方案是:既然是采集正文,那么就给一个输入框,让使用者填写目标网站的内容标签。

例如OSC博客的内容标签为:class="BlogContent" 。那么只要填写BlogContent,程序就直接获取BlogContent内的所有文本内容(剔除html标签)。

lazyphp
lazyphp
回复 @YeaWind : 不填的话,这就是我上面说的,让机器学习。
eechen的粉丝
eechen的粉丝
回复 @lazyphp : 要实现的是现在填列表,但是就是不想填填内容标签。
lazyphp
lazyphp
回复 @YeaWind : 每个网站肯定不一样啦。。我给你的方法是,留一个输入框,直接填写内容标签就行了。剩下就是程序提取文本的事情
eechen的粉丝
eechen的粉丝
每个网站的标签都不一样。
0
OSC首席键客
OSC首席键客
LZ很牛逼嘛!上一帖我也看了……
0
Choate
Choate
LZ的老板很不错。我太喜欢。
0
kiwivip
kiwivip
你和他说清楚,砍掉 内容规则可以,采集的结果就会有一个置信区间,如果不能接受一定的误差,那就必须加上内容规则。
0
cswy
cswy
你的问题是学习(机器生成采集规则),而不是做事(采集)
0
Solowave
Solowave
5块钱我买了,你们谁都别跟我抢
返回顶部
顶部