jparser 0.0.11 发布, python 网页正文抽取

来源: 投稿
作者: fxsjy
2017-05-18 10:41:00

jparser 0.0.11 发布了。jparser是一个python库,用于网页转码,也就是从html源码中抽取正文的结构化数据:文本段落和图片。目前主要针对新闻资讯类页面进行了优化。主要更新内容如下:

Bug fix:

  1. title提取错误

  2. 正文区域判断失误bad case

  3. li标签内容遗漏

在线测试Demo:http://jparser.duapp.com/

用法示例:

import urllib2
from jparser import PageModel
html = urllib2.urlopen("http://news.sohu.com/20170512/n492734045.shtml").read().decode('gb18030')
pm = PageModel(html)
result = pm.extract()

print "==title=="
print result['title']
print "==content=="
for x in result['content']:
    if x['type'] == 'text':
        print x['data']
    if x['type'] == 'image':
        print "[IMAGE]", x['data']['src']
展开阅读全文
点击加入讨论🔥(8) 发布并加入讨论🔥
8 评论
51 收藏
分享
返回顶部
顶部