GNE 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
GNE 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
授权协议: MIT
开发语言: Python
操作系统: 跨平台
收录时间: 2019-09-24
提 交 者: kingname

GNE 是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。

在论文中描述的正文提取基础上,还增加了标题、发布时间和文章作者的自动化探测与提取功能。

最后的输出效果如下图所示:

本项目取名为抽取器,而不是爬虫,是为了规避不必要的风险,因此,本项目的输入是 HTML,输出是一个字典。请自行使用恰当的方法获取目标网站的 HTML。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

GNE 的相关资讯

还没有任何资讯

GNE 的相关博客

Gne Online:通用新闻网页正文在线提取

摄影:产品经理 冒脑花和宽粉 GNE[1]是我开源的一个新闻网站正文通用抽取器,自发布以来得到了很多同学的好评。 一直以来,G...

GNE: 4行代码实现新闻类网站通用爬虫

GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时...

GNE——准确率高达99.9%的新闻类网页通用抽取器

项目起源 开发这个项目,源自于我在知网发现了一篇关于自动化抽取新闻类网站正文的算法论文——《基于文本及符号密度的网页正...

新网网页通用抽取器GNE v0.04版更新,支持提取正文图片与源代码

GeneralNewsExtractor以下简称GNE是一个新闻网页通用抽取器,能够在不指定任何抽取规则的情况下,把新闻网站的正文提取出来。...

Python 教你 4 行代码开发新闻网站通用爬虫

\ GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布...

Python 教你 4 行代码开发新闻网站通用爬虫

GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时...

【趣味案例】Python 教你 4 行代码开发新闻网站通用爬虫

GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时...

GitHub开源项目新闻类爬虫,懒人必备!

hello,小伙伴们大家好 今天给大家介绍的开源项目是python爬虫利器,使用python语言的小伙伴们的福利哦!假如你在工作中接到...

5行Python提取海量新闻网站内容

目录 1、安装模块 2、提取网页内容 本篇博客又双叒叕为各位分享一个Python库:GeneralNewsExtractor(GNE),其是一个通用新闻...

current account(经常账户)

python信用评分卡建模(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campai...

GNE 的相关问答

还没有任何问答,马上提问

评论 (8)

加载中
我开了一个 APP逆向抓取的 爬虫高阶课
07/09 11:55
回复
举报
爬虫比赛,不限制语言!拿37000元现金大奖! 👉 https://jinshuju.net/f/ivkDfF 冲鸭!
06/24 16:52
回复
举报
很nice的一次比赛!冲鸭!兄弟们
06/24 16:54
回复
举报
这个只能手动去copy吗?能自动去爬取某类数据,然后在进行数据整理或抽取吗?
2019/10/19 18:56
回复
举报
搞舆情分析的么?
2019/09/27 15:56
回复
举报
kingname软件作者
数据抽取。
2019/09/27 16:26
回复
举报
对其他网站压力比较大的是下载请求,至少咱这项目没有这方面的功能嘛
2019/09/27 11:21
回复
举报
kingname软件作者
为了规避风险。本项目不提供网页下载功能。需要你自己想办法下载网页。
2019/09/27 11:22
回复
举报
更多评论
8 评论
160 收藏
分享
返回顶部
顶部