jparser 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
jparser 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
jparser 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
jparser 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
jparser 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !

软件简介

jparser是一个python库,用于网页转码,也就是从html源码中抽取正文的结构化数据:文本段落和图片。目前主要针对新闻资讯类页面进行了优化。

用法:

import urllib2
from jparser import PageModel
html = urllib2.urlopen("http://news.sohu.com/20170512/n492734045.shtml").read().decode('gb18030')
pm = PageModel(html)
result = pm.extract()

print "==title=="
print result['title']
print "==content=="
for x in result['content']:
    if x['type'] == 'text':
        print x['data']
    if x['type'] == 'image':
        print "[IMAGE]", x['data']['src']

示例:

http://jparser.duapp.com/

依赖:lxml 

展开阅读全文

代码

评论 (2)

加载中
用的Readability算法还是?
2017/05/28 01:39
回复
举报
打分: 力荐
好东西,正文提取的算法是可不可以提供些资料?
2017/05/25 17:11
回复
举报
更多评论
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
2019/08/21 21:44

[648]python3 使用newspaper库提取新闻内容(readability,jparser)

GitHub:https://github.com/codelucas/newspaper Newspaper文档说明:https://newspaper.readthedocs.io/en/latest/ Newspaper快速入门:https://newspaper.readthedocs.io/en/latest/user_guide/quickstart.html Newspaper是一个python3库。 注:Newspaper框架并不适用于实际工程类新闻信息爬取工作,框架不稳定,爬取过程中会有各种bug,例如获取不到url、新闻信息等,但对于想获取一些新闻语料的朋友不妨一试,简单方便易上...

0
0
2019/09/18 19:26

[662]静态html提取正文的API和开源算法

1.arex https://github.com/ahkimkoo/arex 2.Html2Article http://www.cnblogs.com/jasondan/p/3497757.html 主要python包:requests+lxml+jparser+url2io。 其中jparser、url2io都用于网页文本正文提取,url2io准确率高,但不稳定,解析错误时则调用jparser。通过两者结合使用来提高正文提取的效果。 jparser 安装 pip install jparser 使用 可参考官网:https://pypi.org/project/jparser/0.0.10/ url2io 下载安装,即下载u...

0
0
发表了博客
2019/08/22 20:06

【转】使用JavaParser获得Java代码中的类名、方法形参列表中的参数名以及统计总的文件个数与不能解析的文件个数

遍历目录查找Java文件: public static void ergodicDir(File dir, HashSet<String> argNameSet, HashSet<String> classNameSet, ArrayList<Integer> record) { if(dir.isDirectory()){ for(File file : dir.listFiles()){ if(file.isDirectory()){ ergodicDir(file, argNameSet, classNameSet, record); } if(file.isFile() && file.getName().endsWith("java")){ Jparser.parser(file, argNameSet, classNameSet, record); } ...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
2 评论
57 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部