当前访客身份:游客 [ 登录 | 加入开源中国 ]

开源项目

当前位置:
开源软件 » 分类导航 » Web应用开发 » HTML解析器

软件分类

共有75 HTML解析器开源软件,第1

html 解析器,c# html解析,python html解析,vc html解析,delphi html解析,vb html解析,html 解析工具,html 解析过程,j2me html解析,c# html解析器

软件过滤: 排序: 收录时间 | 浏览数
  • HTML解析器 jsoup

    本站使用 jsoup 来解析 HTML。 jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 jsoup的主要功能如下: 从一个URL,文件或字符串中解析H... 更多jsoup信息

    最近更新: Jsoup 1.10.1 发布,Java 的 HTML 解析器 发布于 2个月前

  • HTML文档解析器 HTMLParser

    HTML Parser 是一个对HTML进行分析的快速实时的解析器,最新的发行版本是1.6,另外2.0的开发版本已经两年没有进展了。 示例代码: Parser parser = new Parser ("http://whatever"); NodeList list = parser.parse (null); Node node = list.elementAt... 更多HTMLParser信息

  • 纯C语言实现的HTML5解析库 Gumbo

    Gumbo 是 Google 的一款用C语言实现的HTML5解析库,无需任何外部依赖。 目标及特征: 遵循 HTML5 规范 功能强大,可处理一些不规范的 HTML 标签 简单的 API 支持源位置和指针回到原始文本 轻巧、没有外部依赖 通过 html5lib-0.95 兼容测试 已在超过25亿个来... 更多Gumbo信息

    最近更新: Gumbo —— Google 的纯 C HTML5 解析器 发布于 3年前

  • JavaScript 的 HTML 解析器 jsdom

    jsdom 是 WHATWG DOM 和 HTML 标准的 JavaScript 实现,主要用于 io.js 框架。 示例代码: // Count all of the links from the io.js build page var jsdom = require("jsdom"); jsdom.env(   "https://iojs.org/dist/",   ["http://co... 更多jsdom信息

    最近更新: Jsdom 5.4.1 发布,JavaScript 的 HTML 解析器 发布于 2年前

  • HTML5解析引擎 OCGumbo

    OCGumbo是一个Objective-C写的HTML5解析引擎,基于Google gumbo开源项目。 OCGumbo除了基础的解析功能外,最大的特色是对增加了类似JQuery的查询功能。 示例代码: OCGumboDocument *document = [[OCGumboDocument alloc] initWithHTMLString:htmlString];... 更多OCGumbo信息

  • Ruby 的 XML/HTML 解析器 Oga

    Oga 是一个 Ruby 的 XML/HTML 解析器。 示例代码1: require 'oga' require 'net/http' body     = Net::HTTP.get(URI.parse('http://www.reddit.com/')) document = Oga.parse_html(body) titles   = document.xpath('//div[contains(@cla... 更多Oga信息

    最近更新: Oga —— Ruby 的 XML/HTML 解析器 发布于 10个月前

  • HTML文档解析器 NekoHTML

    NekoHTML是一个Java语言的 HTML扫描器和标签补全器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能够扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档 过程中常犯的错误。 NekoHTML能增补缺失的父元素、... 更多NekoHTML信息

  • Html文档解析器 HtmlCleaner

    HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来... 更多HtmlCleaner信息

  • Html文档解析器 JTidy

    JTidy 是 HTML Tidy 用Java语言实现的版本,提供了一个HTML的语法检查器和很好的打印功能。JTidy可以用来清除格式不好和不对的 HTML。此外,JTidy提供了对整个HTML的DOM分析器。程序员可以将JTidy当作一个处理HTML文件的DOM解析器来使用。... 更多JTidy信息

  • html解析器 HtmlAgilityPack

    Html Agility Pack 是CodePlex 上的一个开源项目。它提供了标准的DOM API 和XPath 导航--即使 HTML 不是适当的格式! 示例代码: HtmlDocument doc = new HtmlDocument(); doc.Load("file.htm"); foreach(HtmlNode link in doc.DocumentElement.SelectN... 更多HtmlAgilityPack信息

  • HTML和CSS的C++解析器 htmlcxx

    htmlcxx 是一个 C++ 的 HTML 解析器和 CSS1 的解析器。The parsing politics attempt to mimic the behavior of Mozilla Firefox, so you should expect parse trees similar to those created by Firefox. However, it does not insert nonexistent stuf... 更多htmlcxx信息

    最近更新: htmlcxx 0.85 发布,C++的HTML和CSS解析库 发布于 6年前

  • PHP Simple HTML DOM Parser

    这是一个 PHP5 的 HTML 文档解析器,示例代码: // Create DOM from URL or file $html = file_get_html('http://www.google.com/'); // Find all images foreach($html->find('img') as $element)        echo $element->src . '<br>'; // Find all... 更多PHP Simple HTML DOM Parser信息

  • Streaming HTML parser

    Streaming HTML parser 是一个 C 语言的 HTML 解析器。 示例代码 #include <stdio.h> #include <streamhtmlparser/htmlparser.h> int main(void) {   unsigned int getchar_ret;   htmlparser_ctx *parser = htmlparser_new();   while((getchar_ret =... 更多Streaming HTML parser信息

  • Html网页正文提取 Html2Article

    .NET平台下,一个高效的从Html中提取正文的工具。 正文提取采用了基于文本密度的提取算法,支持从压缩的Html文档中提取正文,每个页面平均提取时间为30ms,正确率到95%以上。 Html2Article有如下特点: 标签无关,提取正文不依赖标签。 支持从压缩的html文... Html2Article 更多Html2Article信息

  • Python的HTML解析 mechanize

    当您希望与 Web 页面中找到的内容进行某种比较复杂的交互时,您需要使用 mechanize 库 示例代码: import re from mechanize import Browser br = Browser() br.open("http://www.example.com/") # follow second link with element text matching regula... 更多mechanize信息

  • Python的HTML解析器 Beautiful Soup

    Beautiful                     Soup 库是一个非常神奇的 “粗糙的解析器”,用于解析实际 Web 页面中包含的有效 HTML。 示例: #  #  #  #  #  #  #  #  #  #  #  #  #  #... 更多Beautiful Soup信息

  • C语言的HTML解析库 libhtml

    libhtml 是一个微型的 C 程序库,用来解析、序列化和生成 HTML 4.01-strict 和 XHTML 1.0-strict 文档。 更多libhtml信息

    最近更新: libhtml 0.3.3 发布,C解析HTML的微型库 发布于 5年前

  • C#的HTML解析 afterwork

    afterwork 是一个 C# 语言用来解析 HTML 文档的开发包。 更多afterwork信息

  • HTML解析库 html5lib

    html5lib 是一个 Ruby 和 Python 用来解析 HTML 文档的类库,支持HTML 5 以及最大程度兼容桌面浏览器。 主要特性包括: Parses valid and invalid HTML documents to a tree Support for minidom, ElementTree (including cElementTree and lxml.etree), ... 更多html5lib信息

    最近更新: 大锅乱炖10大 H5 前端框架 发布于 9个月前

  • 通用网页正文抽取 cx-extractor

    基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关 对于Web信息检索来说,网页正文抽取是后续处理的关键。 虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的HTML,使用规则处理难免捉襟见肘。能不能高效、准... 更多cx-extractor信息