jparser 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
jparser 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
授权协议: MIT
开发语言: Python
操作系统: 跨平台
收录时间: 2017-05-16
提 交 者: fxsjy

jparser是一个python库,用于网页转码,也就是从html源码中抽取正文的结构化数据:文本段落和图片。目前主要针对新闻资讯类页面进行了优化。

用法:

import urllib2
from jparser import PageModel
html = urllib2.urlopen("http://news.sohu.com/20170512/n492734045.shtml").read().decode('gb18030')
pm = PageModel(html)
result = pm.extract()

print "==title=="
print result['title']
print "==content=="
for x in result['content']:
    if x['type'] == 'text':
        print x['data']
    if x['type'] == 'image':
        print "[IMAGE]", x['data']['src']

示例:

http://jparser.duapp.com/

依赖:lxml 

展开阅读全文

代码

jparser 的相关博客

dom4j根据xml节点name值来遍历节点数据

package com.loymtech.test; import java.io.File; import java.util.Iterator; import org.dom4j.Attribute; import org.dom...

【转】使用JavaParser获得Java代码中的类名、方法形参列表中的参数名以及统计总的文件个数与不能解析的文件个数

遍历目录查找Java文件: public static void ergodicDir(File dir, HashSet<String> argNameSet, HashSet<String> classNameS...

jparser 的相关问答

还没有任何问答,马上提问

评论 (2)

加载中
用的Readability算法还是?
2017/05/28 01:39
回复
举报
打分: 力荐
好东西,正文提取的算法是可不可以提供些资料?
2017/05/25 17:11
回复
举报
更多评论
2 评论
57 收藏
分享
返回顶部
顶部