12
回答
PHP如何搞定网页文章正文智能提取
科大讯飞通用文字识别100000次/天免费使用。立即申请   

要求我把原来的采集功能修改下:原来的采集功能填写采集列表和内容规则

现在说采集功能不太智能,要我现在做的智能一点,说填写采集规则太麻烦了,要只填写列表就可以自动采集。

于是。。。。。

所以我觉得正文智能采集比较麻烦。看看有没有好的例子。

前面一贴被各种网友吐槽,分享方法的没有几个,可是没办法,要我把这个实现。

意思是 这个要求 如果我不能实现,表示我技术很菜。


PHP
举报
共有12个答案 最后回答: 4年前

要做到真正的智能采集,这个需要不断对页面进行分析,让机器进行学习。首先,撸住你要解决的就是,如何让机器自动学习。搞会这点,编写智能采集就不成问题了。

我给撸住的解决方案是:既然是采集正文,那么就给一个输入框,让使用者填写目标网站的内容标签。

例如OSC博客的内容标签为:class="BlogContent" 。那么只要填写BlogContent,程序就直接获取BlogContent内的所有文本内容(剔除html标签)。

--- 共有 4 条评论 ---
lazyphp回复 @YeaWind : 不填的话,这就是我上面说的,让机器学习。 4年前 回复
eechen的粉丝回复 @lazyphp : 要实现的是现在填列表,但是就是不想填填内容标签。 4年前 回复
lazyphp回复 @YeaWind : 每个网站肯定不一样啦。。我给你的方法是,留一个输入框,直接填写内容标签就行了。剩下就是程序提取文本的事情 4年前 回复
eechen的粉丝每个网站的标签都不一样。 4年前 回复
你和他说清楚,砍掉 内容规则可以,采集的结果就会有一个置信区间,如果不能接受一定的误差,那就必须加上内容规则。
顶部