jparser 0.0.11 发布, python 网页正文抽取 - 开源中国社区
jparser 0.0.11 发布, python 网页正文抽取
fxsjy 2017年05月18日

jparser 0.0.11 发布, python 网页正文抽取

fxsjy fxsjy 发布于2017年05月18日 收藏 50 评论 8

jparser 0.0.11 发布了。jparser是一个python库,用于网页转码,也就是从html源码中抽取正文的结构化数据:文本段落和图片。目前主要针对新闻资讯类页面进行了优化。主要更新内容如下:

Bug fix:

  1. title提取错误

  2. 正文区域判断失误bad case

  3. li标签内容遗漏

在线测试Demo:http://jparser.duapp.com/

用法示例:

import urllib2
from jparser import PageModel
html = urllib2.urlopen("http://news.sohu.com/20170512/n492734045.shtml").read().decode('gb18030')
pm = PageModel(html)
result = pm.extract()

print "==title=="
print result['title']
print "==content=="
for x in result['content']:
    if x['type'] == 'text':
        print x['data']
    if x['type'] == 'image':
        print "[IMAGE]", x['data']['src']
本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:jparser 0.0.11 发布, python 网页正文抽取
分享
评论(8)
精彩评论
3
看名字以为是JAVA库
最新评论
0

引用来自“headjoy”的评论

跟BeautifulSoup比有何优势
用处不同,BeautifuSoup是用来自己编写提取规则,解析网页的。 jparser是自动提取网页的正文内容,无需手动编写xpath, 具备一定的通用性。
0
跟BeautifulSoup比有何优势
0

引用来自“烽火云烟”的评论

看名字以为是JAVA库
me too
0
Github地址:https://github.com/fxsjy/jparser
0

引用来自“烽火云烟”的评论

看名字以为是JAVA库
哈哈,取journals的意思。
3
看名字以为是JAVA库
0
这个必须顶
0
谢谢
顶部