加载中

HtmlSucker - HTML 正文提取工具

HtmlSucker 是一个用来从一个网页中提取文章信息的小工具包,例如从网页中提取文章标题、作者、发布时间、 封面图以及文章正文内容。基于 jsoup 库进行 HTML 解析。 HtmlSuc...

收藏 27
更新于 2018/01/31

Fruit-HTML - HTML 解析框架

Fruit 简单的说Fruit之于html正如Gson之于Json,它能让你以一种注解的方式来描述解析的逻辑。下面是一个例子: 1 2 3 4 5 6 7 8 9 10 11...

收藏 2

html2article-golang - 基于文本密度的 html2article 实现

html2article — 基于文本密度的html2article实现[golang] Install go get -u -v github.com/sundy-li/html2articl...

收藏 4

jparser - 网页转码 python 库

jparser是一个python库,用于网页转码,也就是从html源码中抽取正文的结构化数据:文本段落和图片。目前主要针对新闻资讯类页面进行了优化。 用法: import urllib2 fro...

收藏 57
更新于 2017/05/25

Harser - Python 的 HTML 解析器

Harser 是一个简单的 Python HTML 解析器。 安装:pip install harser 示例代码: >>> from harser import Harser >>> HTM...

收藏 2

HtmlCompressor - HTML 压缩库

HtmlCompressor 是一个 Java 类库,用来对 HTML 内容进行压缩。HtmlCompressor 会删除 HTML 中无用的空格、空行、注释等内容。 该项目还提供了 Maven...

收藏 5

MYHTML - C/C++ HTML 5解析器

Myhtml是一款快速C/C++ HTML 5解析器软件,线程实现就像一个没有外界依赖性的纯C99库。 特性: Asynchronous Parsing, Build Tree and Inde...

收藏 7

Oga - Ruby 的 XML/HTML 解析器

Oga 是一个 Ruby 的 XML/HTML 解析器。 示例代码1: require 'oga' require 'net/http' body     = Net::HTTP.get(UR...

收藏 14
更新于 2016/02/21

Jsoupxpath - 使用 xpath 解析 html 的解析器

JsoupXpath 是一款纯Java开发的使用xpath解析提取html数据的解析器,针对html解析完整实现了W3C XPATH 1.0标准语法,xpath的Lexer和Parser基于An...

收藏 33
更新于 2018/04/24

Ono - XML/HTML 解析库

Ono (斧)是 iOS & Mac OSX 处理 XML & HTML 的一种明智的方法(解析库)。 XML 在 Cocoa 的支持并不好,NSXMLParser 强制要求繁琐的委托模式,这是...

收藏 66
更新于 2015/09/20

Fuzi - XML/HTML 解析器

Swift实现的轻量快速的 XML/HTML 解析器。 Mattt Thompson大神的 Ono (斧) 是iOS/OSX平台上非常好用的一个XML/HTML 解析库。用ObjectiveC实...

收藏 1

Context Parser - HTML5 内容解析器

Context Parser 是一款功能强劲的 HTML5 内容解析器,它能解析 HTML5 Web 页面。浏览器通常用 JavaScript 和 CSS 引擎来构建页面的动态组件。为了决定应该...

收藏 1

jsdom - JavaScript 的 HTML 解析器

jsdom 是 WHATWG DOM 和 HTML 标准的 JavaScript 实现,主要用于 io.js 框架。 示例代码: // Count all of the links from t...

收藏 41
更新于 2018/01/23

AngleSharp - .NET 的 HTML 解析器库

AngleSharp 是一个 .NET 的 HTML 解析器库。支持输出 Javascript、Linq 语法、ID 和 Class 选择器、动态添加节点、支持 Xpath 语法。PS:支持 W...

收藏 16
AngleSharp

pup - HTML 内容解析工具

pup 是一个命令行的 HTML 内容解析工具,直接从 stdin 读入内容,并将解析结果输出到 stdout,用户可以使用 CSS 选择器进行内容的过滤。 基本使用方法: $ cat inde...

收藏 4
开源软件作者
青苗
Spring-Wind 作者
理工男海哥
afinal 作者
shudu
nginx-http-sysguard 作者

EscapeHTML

EscapeHTML 是一个简单的 Swift 库用来对 HTML 中的特殊字符进行转义。 示例代码: import EscapeHTML escape("<p>some html</p>")

收藏 1

SGMLReader - HTML 和 SGML 解析库

SgmlReader 是一个敏捷的 C# .NET 库,通过 XmlReader API 解析 HTML 和 SGML 文件。同时提供一个命令行工具可以对这些内容进行格式化输出到 XML 结果。...

收藏 2

scrape.py - HTML信息提取工具

scrape.py 是一个 Python 模块用来从网页上提取内容的工具,可用它轻松实现页面抓取、链接点击、表单提交等操作,自动支持 Cookie、重定向和 SSL。 scrape.py 并不解...

收藏 11

Goutte - PHP 爬虫库

Goutte 是一个抓取网站数据的 PHP 库。它提供了一个优雅的 API,这使得从远程页面上选择特定元素变得简单。 示例代码: require_once '/path/to/goutte.ph...

收藏 78

NSoup - JSoup的Net移植版本

NSoup是JSoup的Net移植版本。使用方法基本一致。 特性: jQuery 风格的 CSS 选择器 对不信任的源的 HTML 进行清理 操作 HTML 文档. 示例代码: NSoup.No...

收藏 27

没有更多内容

加载失败,请刷新页面

返回顶部
顶部