HtmlSucker 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
HtmlSucker 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
HtmlSucker 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 WTFPL
开发语言 Java
操作系统 跨平台
软件类型 开源软件
所属分类 Web应用开发HTML解析器
开源组织
地区 国产
投 递 者 红薯
适用人群 未知
收录时间 2018-01-29

软件简介

HtmlSucker 是一个用来从一个网页中提取文章信息的小工具包,例如从网页中提取文章标题、作者、发布时间、 封面图以及文章正文内容。基于 jsoup 库进行 HTML 解析。

HtmlSucker 提取文章正文的原理:分析整个 HTML 文档的所有节点,提取其中包含最多文字的的连续节点。

本项目部分代码参考 Crux 项目,例如 HeuristicString 类。

示例代码:

public static void main(String[] args) throws IOException {
    String url = "https://www.oschina.net/news/92798/micro-match-1-0-1-released";
    System.out.println(HtmlSucker.parse(url, 20000));
}

输出结果:

title:撮合平台 1.0.1 发布 暴露远程调用接口 - 开源中国社区
keywords:开源中国,micro-match,撮合平台 1.0.1 发布 暴露远程调用接口
description:撮合平台 1.0.1 发布 暴露远程调用接口并优化撮合条数算法 1,挂买单接口 2,挂卖单接口 3,撮合接口 4,撮合结果查询接口 详见:https://my.oschina.net/jeffreyning/blog/1612810...
author:
date:null
image:https://www.oschina.net/img/logo_s2.png
content:
<p style="margin:0 0 10px 0;"><a data-traceid="news_detail_above_text_link_1" data-tracepid="news_detail_above_text_link" style="color:#A00;font-weight:bold;" href="http://click.aliyun.com/m/18500/" target="_blank">阿里云高性能云服务器,2折起! &gt;&gt;&gt; &gt;&gt;&gt;</a>&nbsp;&nbsp;<img src="https://my.oschina.net/img/hot3.png" align="" style="max-height: 32px; max-width: 32px;"></p>
<p>撮合平台 1.0.1 发布 暴露远程调用接口并优化撮合条数算法</p>
<p>1,挂买单接口</p>
<p>2,挂卖单接口</p>
<p>3,撮合接口</p>
<p>4,撮合结果查询接口</p>
<p>详见:<a data-cke-saved-href="https://my.oschina.net/jeffreyning/blog/1612810" href="https://my.oschina.net/jeffreyning/blog/1612810" target="_blank">https://my.oschina.net/jeffreyning/blog/1612810</a></p>
展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击加入讨论🔥(9)
发表于大前端专区
2018/01/31 08:18

HtmlSucker 0.0.2 发布,震精 —— 红薯又让我发新闻了

大家好,我不是昨天领盒饭那个编辑。感谢大家对开源中国悲惨的编辑工作现状的同情和支持,我们也想给大家奉献更好更高质量的开源资讯,可偏偏。。。。。。你懂的。。。。。。为了过好年,我还是憋说话了。 今天轮到我来负责发布软件更新资讯,心里一直非常忐忑和担心,果不其然,凌晨 3 点半收到 @红XX 的信息要求发布更新版本,额外要求是必须把他写得很高大上,否则盒饭已备好。 默默无语两行泪,耳边响起驼铃声。。。。 Html...

25
10
发表于大前端专区
2018/01/30 08:39

HtmlSucker 0.0.1 发布,惊恐 —— 红薯又写代码了!!

全体 OSChina 官方程序员都吓屎了,因为红薯又写代码了。这次他撸了个 HtmlSucker ,这个名字一听就很猥琐有没有。而且其实也没什么卵用,无非就是在不知道 HTML 页面规则的情况下,从一个 HTML 网页中提取文章的正文信息。用来干嘛呢? 反正肯定跟爬虫有关。 听说第一个版本还很弱智,原理是计算最大文本节点的方式来获取正文信息。(就这也好意思发布一个项目,难道欺负我朝无人吗?) 请大家前往 https://gitee.com/ld/HtmlS...

57
19
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
9 评论
38 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部