正文提取(网页去噪)接口升级,欢迎有兴趣的同学帮忙测试下

探索人生 发布于 2016/05/07 11:50
阅读 329
收藏 1
请输入单页面URL地址:测试地址;不要输入像 baidu.com、oschina.net这样的地址,没用
加载中
1
土豆宝
土豆宝
做不到通用性,专题类的采集就不行
探索人生
探索人生
我所谓的通用是指内容类单页面的通用性,不是在全网的范畴内
0
Mr_K
Mr_K
哎  居然有广告了···
探索人生
探索人生
呵呵 可以忽略4
0
十一月不远
十一月不远
这个做不到通用性,精确度不高的话不好说,但是做到精确通用有太难
探索人生
探索人生
回答很笼统,再说开源与否跟通用性没关系
十一月不远
十一月不远
回复 @探索人生 : 对新闻资讯(能检测到正文)页面全网的覆盖面,对新闻内容提取的绝对精确性,往往使用者使用这个技术对这方面要求比较高,另外,开否公开算法或者开源代码
探索人生
探索人生
为什么不通用呢?
0
探索人生
探索人生
周末人这么少?发个升级测试都快沉了。。。
0
XDOC-专注文档处理
XDOC-专注文档处理

几下就不能玩儿了,既然让测试,就开放一点儿。。。

不知道这种技术用处有多大,现在应该有很成熟的,看看推酷http://www.tuicool.com/

探索人生
探索人生
呵呵 恩
0
苏生不惑
苏生不惑
输入http://www.oschina.net/question/1861490_2176654 这个网址就提示不存在了。。。
探索人生
探索人生
回复 @苏生不惑 : 是的
苏生不惑
苏生不惑
回复 @探索人生 : 抱歉,没仔细看标题,你是requests获取正文然后用正则解析出内容吗
探索人生
探索人生
osc重定向防爬的事,可以无视
返回顶部
顶部