jparser 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
jparser 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
jparser 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 MIT
开发语言 Python
操作系统 跨平台
软件类型 开源软件
所属分类 Web应用开发HTML解析器
开源组织
地区 国产
投 递 者 fxsjy
适用人群 未知
收录时间 2017-05-16

软件简介

jparser是一个python库,用于网页转码,也就是从html源码中抽取正文的结构化数据:文本段落和图片。目前主要针对新闻资讯类页面进行了优化。

用法:

import urllib2
from jparser import PageModel
html = urllib2.urlopen("http://news.sohu.com/20170512/n492734045.shtml").read().decode('gb18030')
pm = PageModel(html)
result = pm.extract()

print "==title=="
print result['title']
print "==content=="
for x in result['content']:
    if x['type'] == 'text':
        print x['data']
    if x['type'] == 'image':
        print "[IMAGE]", x['data']['src']

示例:

http://jparser.duapp.com/

依赖:lxml 

展开阅读全文

代码

评论

点击加入讨论🔥(2)
发表了资讯
2017/05/25 16:11

jpaser 0.0.18 发布,Python 网页正文抽取工具

jpaser 0.0.18 发布了,jparser 是 Python 编写的网页正文抽取工具,对于资讯类页面可以自动抽取标题、正文段落和图片地址。 0.0.18 版改进: 1) 修复br标签问题; 2) 提高了title提取的准确性; 3) 图片地址绝对路径处理bug修复; 4) 抽取结果中的杂质打压; 5) 提高正文区域识别准确率;

17
44
发表了资讯
2017/05/18 10:41

jparser 0.0.11 发布, python 网页正文抽取

jparser 0.0.11 发布了。jparser是一个python库,用于网页转码,也就是从html源码中抽取正文的结构化数据:文本段落和图片。目前主要针对新闻资讯类页面进行了优化。主要更新内容如下: Bug fix: title提取错误 正文区域判断失误bad case li标签内容遗漏 在线测试Demo:http://jparser.duapp.com/ 用法示例: import urllib2 from jparser import PageModel html = urllib2.urlopen("http://news.sohu.com/20170512/n4...

8
51
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
2 评论
56 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部