HTML 解析器 Jericho

LGPL
Java
跨平台
2009-04-10
红薯

Jericho HTML解析器是一个Java库,以分析和操纵部分的HTML文件,其中包括服务器端的标签,而过滤掉任何无法识别的或无效的HTML 。它也提供高层次的HTML表单操作函数。

示例代码:

import net.htmlparser.jericho.*;
import java.util.*;
import java.io.*;
import java.net.*;

public class Encoding {
public static void main(String[] args) throws Exception {
String sourceUrlString="data/test.html";
if (args.length==0)
System.err.println("Using default argument of \""+sourceUrlString+'"');
else
sourceUrlString=args[0];
if (sourceUrlString.indexOf(':')==-1) sourceUrlString="file:"+sourceUrlString;
System.out.println("\nSource URL:");
System.out.println(sourceUrlString);
URL url=new URL(sourceUrlString);
Source source=new Source(url);
System.out.println("\nDocument Title:");
Element titleElement=source.getFirstElement(HTMLElementName.TITLE);
System.out.println(titleElement!=null ? titleElement.getContent().toString() : "(none)");
System.out.println("\nSource.getEncoding():");
System.out.println(source.getEncoding());
System.out.println("\nSource.getEncodingSpecificationInfo():");
System.out.println(source.getEncodingSpecificationInfo());
System.out.println("\nSource.getPreliminaryEncodingInfo():");
System.out.println(source.getPreliminaryEncodingInfo());
}
}
加载中

评论(0)

暂无评论

Jericho 3.3 发布,HTML 解析器

Jericho 3.3 包含重要的 bug 修复和改进,Jericho HTML解析器是一个Java库,以分析和操纵部分的HTML文件,其中包括服务器端的标签,而过滤掉任何无法识别的或无效的HTML 。它也提供高层次的H...

2012/11/01 07:50

没有更多内容

加载失败,请刷新页面

没有更多内容

暂无问答

Cheap diesel jacket keeps you chic before others

Such a state-of-the-art dress-up costume tastefully engages couple of low precious gem stones at the 18 o-clock marker, knowning the fact that true leather-based Buy Diesel Watc...

2015/01/20 14:24
7
0
Cheap diesel watches carry out promotions

This type of refined costume outfit tastefully uses a few simple cherished jewels for the sixteen o-clock sign, knowning which usually specific leather-based fasten is cheap die...

2015/01/20 14:30
14
0
Android开发免费类库和工具集合

用于Android开发的免费类库和工具集合,按目录分类。 Action Bars ActionBarSherlock Extended ActionBar FadingActionBar GlassActionBar v7 appcompat library 广告 AdMob Google Mobile ...

2016/06/20 08:50
70
0
83款 网络爬虫开源软件

1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view& 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文...

2014/08/07 13:40
137
0
83款 网络爬虫开源软件

1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view& 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文...

2014/08/07 13:40
95
0
83款 网络爬虫开源软件

1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view& 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文...

2014/08/07 13:40
105
0
83款 网络爬虫开源软件

1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view& 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文...

2014/08/07 13:40
60
1
83款 网络爬虫开源软件

1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view& 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文...

2014/08/07 13:40
393
0
83款 网络爬虫开源软件

1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view& 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文...

2014/08/07 13:40
249
0
Blloger工具

Adminimizer Toolbar Internet Explorer 6中,更新您的Blog 最容易的工具。 ashnews 一个使用PHP/MySQL打造的简单程序,允许您很容易就添加一个news/blog 系统到您的站点。 AvantBlog 一个非...

2012/12/18 21:11
54
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部