用于文章提取的 Python 库 Python-goose

Apache
Python
跨平台
2017-03-06
达尔文

Python-goose项目是用Python重写的Goose,Goose原来是用Java写的文章提取工具。Python-goose的目标是给定任意资讯文章或者任意文章类的网页,不仅提取出文章的主体,同时提取出所有元信息以及图片等信息,支持中文网页。
Python-goose可提取的信息包括:

  • 文章主体内容

  • 文章主要图片

  • 文章中嵌入的任何Youtube/Vimeo视频

  • 元描述

  • 元标签

示例

>>> from goose import Goose
>>> url = 'http://edition.cnn.com/2012/02/22/world/europe/uk-occupy-london/index.html?hpt=ieu_c2'
>>> g = Goose()
>>> article = g.extract(url=url)
>>> article.title
u'Occupy London loses eviction fight'
>>> article.meta_description
"Occupy London protesters who have been camped outside the landmark St. Paul's Cathedral for the past four months lost their court bid to avoid eviction Wednesday in a decision made by London's Court of Appeal."
>>> article.cleaned_text[:150]
(CNN) -- Occupy London protesters who have been camped outside the landmark St. Paul's Cathedral for the past four months lost their court bid to avoi
>>> article.top_image.src
http://i2.cdn.turner.com/cnn/dam/assets/111017024308-occupy-london-st-paul-s-cathedral-story-top.jpg
加载中

评论(0)

暂无评论

暂无资讯

暂无问答

Python网页正文转换语音文件的操作方法

天气真的是越来越冷啦,有时候我们想翻看网页新闻,但是又冷的不想把手拿出来,移动鼠标翻看。这时候,是不是特别想电脑像讲故事一样,给我们念出来呢?人生苦短,我有python啊,试试用 Pyth...

2018/12/11 09:24
2
0
怎样入门python爬虫?

“入门”是良好的动机,但是可能作用缓慢。如果你手里或者脑子里有一个项目,那么实践起来你会被目标驱动,而不会像学习模块一样慢慢学习。 另外如果说知识体系里的每一个知识点是图里的点,...

2018/08/17 10:01
13
0
常用python机器学习库总结

1. Python网页爬虫工具集 一个真实的项目,一定是从获取数据开始的。无论文本处理,机器学习和数据挖掘,都需要数据,除了通过一些渠道购买或者下载的专业数据外,常常需要大家自己动手爬数据...

2018/04/18 15:03
15
0
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱

从“我爱自然语言处理”:www.52nlp.cn 处转载! 注:原创文章,转载请注明出处 本文链接地址:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘...

2014/07/25 19:16
172
0
python菜鸟聪带你一起学 《python编程快速上手 让繁琐的工作自动化》之 6.7 实践项目—表格打印

项目要求:编写一个名为 printTable()的函数,它接受字符串的列表的列表,将它显示在组织良好的表格中,每列右对齐。 tableData = [['apples', 'oranges', 'cherries', 'banana'],['Alice',...

2018/10/21 16:08
44
0
2014 年度计划

1. Kafka 阅读 kafka 0.7.x 的代码,了解负载均衡的策略 kafka 0.8.x Samza http://samza.incubator.apache.org/ 2. go-lang beego revel martini nsq http://bitly.github.io/nsq/overview/...

2013/12/23 10:26
154
0
Python库大全,建议收藏留用!

学Python,想必大家都是从爬虫开始的吧。毕竟网上类似的资源很丰富,开源项目也非常多。 Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 当我们在浏览器中输入一个url后回车,后台会...

2018/05/22 22:59
15
0
Python库大全,建议收藏留用!

学Python,想必大家都是从爬虫开始的吧。毕竟网上类似的资源很丰富,开源项目也非常多。 Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 当我们在浏览器中输入一个url后回车,后台会...

2018/07/14 17:29
13
0
Python库大全(涵盖了Python应用的方方面面), 建议收藏留用!

学Python,想必大家都是从爬虫开始的吧。毕竟网上类似的资源很丰富,开源项目也非常多。 Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 当我们在浏览器中输入一个url后回车,后台会...

2018/05/11 07:45
75
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部