HTML文档解析器 NekoHTML

Apache
Java
跨平台
2008-09-14

NekoHTML是一个Java语言的 HTML扫描器和标签补全器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能够扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档 过程中常犯的错误。

NekoHTML能增补缺失的父元素、自动用结束标签关闭相应的元素,以及不匹配的内嵌元素标签。NekoHTML的开发使用了 Xerces Native Interface (XNI),后者是Xerces2的实现基础。

示例代码:

package sample;

import org.cyberneko.html.parsers.DOMParser;
import org.w3c.dom.Document;
import org.w3c.dom.Node;

public class TestHTMLDOM {
public static void main(String[] argv) throws Exception {
DOMParser parser = new DOMParser();
for (int i = 0; i < argv.length; i++) {
parser.parse(argv[i]);
print(parser.getDocument(), "");
}
}
public static void print(Node node, String indent) {
System.out.println(indent+node.getClass().getName());
Node child = node.getFirstChild();
while (child != null) {
print(child, indent+" ");
child = child.getNextSibling();
}
}

}
加载中

评论(0)

暂无评论

暂无资讯

2
回答
在Android上用NekoHtml解析Html报Could not found class 错误

我把nekohtml.jar,xercesImpl.jar,xalan.jar的包都放在libs下了。网上看了ADT21.1的版本应该会把libs下的ja...

2013/04/11 22:06
2
回答
有这样的javascript解析器吗?

最近在做网页内容解析方面的工作,用了一下nutch,发现像水木 (newsmth.net) 之类的网站,解析不了啊。我分析了一下,水木的版面并不是常见的h...

2010/04/30 14:37

没有更多内容

加载失败,请刷新页面

没有更多内容

Nutch1.7和eclipse集成

自己整理的笔记,Nutch 和 eclipse 集成过程

2014/04/18 16:33
25
0
Nutch1.7 配置到 eclipse

在nutch项目集成到eclipse中遇到了很多的问题,第一次参照网上资料配置成功后,由于没做笔记。第二天写笔记时,没想到又忘记了。诶,悲催的又花了一天。总觉得这次配环境花的时间真的是太多了...

2014/04/19 17:47
70
0
SpringBoot+thymelates入门

在pom.xml当中加入这俩个依赖 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-thymeleaf</artifactId> </dependency> <dependency> <groupI.....

04/13 22:26
0
0
使用NekoHtml处理网页(删除Style标签)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/jaune161/article/details/43561577 最近在做一个手机APP,通过一个新闻抓取程序抓取新闻,然后通过APP展示新...

02/28 09:01
2
0
SpringBoot的国际化使用

在项目中,很多时候需要国际化的支持,这篇文章要介绍一下springboot项目中国际化的使用。 在这个项目中前端页面使用的thymeleaf,另外加入了nekohtml去掉html严格校验,如果不了解springboo...

03/11 13:58
0
0
spring-boot开发过程中的问题汇总

springboot + jpa自动生成数据库(oracle)表出现表存在错误 在application.properties中加上spring.jpa.properties.hibernate.default_schema=[user],由于oracle不同表空间下可以有同名表,...

2018/07/31 13:26
12
0
Thymeleaf与SpringBoot集成

序: Thymeleaf官方参考文档:https://www.thymeleaf.org/doc/tutorials/3.0/usingthymeleaf.html#a-multi-language-welcome 关于thymeleaf2.x与thymeleaf3.x的区别(官方文档):https://www...

2018/10/08 15:32
159
0
springboot(十三):springboot小技巧

一些springboot小技巧、小知识点 初始化数据 我们在做测试的时候经常需要初始化导入一些数据,如何来处理呢?会有两种选择,一种是使用Jpa,另外一种是Spring JDBC。两种方式各有区别下面来详...

2018/05/22 16:26
8
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部