开源中国

我们不支持 IE 10 及以下版本浏览器

It appears you’re using an unsupported browser

为了获得更好的浏览体验,我们强烈建议您使用较新版本的 Chrome、 Firefox、 Safari 等,或者升级到最新版本的IE浏览器。 如果您使用的是 IE 11 或以上版本,请关闭“兼容性视图”。
jparser首页、文档和下载 - 网页转码 python 库 - 开源中国社区
全部项目分类
MIT
Python
跨平台
fxsjy
分享
收藏
56 人收藏
收录时间:2017-05-16
jparser 详细介绍

jparser是一个python库,用于网页转码,也就是从html源码中抽取正文的结构化数据:文本段落和图片。目前主要针对新闻资讯类页面进行了优化。

用法:

import urllib2
from jparser import PageModel
html = urllib2.urlopen("http://news.sohu.com/20170512/n492734045.shtml").read().decode('gb18030')
pm = PageModel(html)
result = pm.extract()

print "==title=="
print result['title']
print "==content=="
for x in result['content']:
    if x['type'] == 'text':
        print x['data']
    if x['type'] == 'image':
        print "[IMAGE]", x['data']['src']

示例:

http://jparser.duapp.com/

依赖:lxml 


大家对 jparser 的评论 (全部 2 条评论)
{{repayCom.userName}}
Akkuman
用的Readability算法还是?
pangsen
好东西,正文提取的算法是可不可以提供些资料?
顶部