网页转码 python 库 jparser

MIT
Python
跨平台
2017-05-16
fxsjy

jparser是一个python库,用于网页转码,也就是从html源码中抽取正文的结构化数据:文本段落和图片。目前主要针对新闻资讯类页面进行了优化。

用法:

import urllib2
from jparser import PageModel
html = urllib2.urlopen("http://news.sohu.com/20170512/n492734045.shtml").read().decode('gb18030')
pm = PageModel(html)
result = pm.extract()

print "==title=="
print result['title']
print "==content=="
for x in result['content']:
    if x['type'] == 'text':
        print x['data']
    if x['type'] == 'image':
        print "[IMAGE]", x['data']['src']

示例:

http://jparser.duapp.com/

依赖:lxml 

加载中

评论(2)

Akkuman
Akkuman
用的Readability算法还是?
pangsen
pangsen
好东西,正文提取的算法是可不可以提供些资料?

jpaser 0.0.18 发布,Python 网页正文抽取工具

jpaser 0.0.18 发布了,jparser 是 Python 编写的网页正文抽取工具,对于资讯类页面可以自动抽取标题、正文段落和图片地址。 0.0.18 版改进: 1) 修复br标签问题; 2) 提高了title提取的准...

2017/05/25 16:07

jparser 0.0.11 发布, python 网页正文抽取

jparser 0.0.11 发布了。jparser是一个python库,用于网页转码,也就是从html源码中抽取正文的结构化数据:文本段落和图片。目前主要针对新闻资讯类页面进行了优化。主要更新内容如下: Bug ...

2017/05/18 10:39

没有更多内容

加载失败,请刷新页面

没有更多内容

暂无问答

dom4j根据xml节点name值来遍历节点数据

package com.loymtech.test; import java.io.File; import java.util.Iterator; import org.dom4j.Attribute; import org.dom4j.Document; import org.dom4j.DocumentException; import org....

2016/07/06 11:30
9
0

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部