Html文档解析器 HtmlCleaner

BSD
Java
跨平台
2008-09-14

HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来进行过滤和匹配。

加载中

评论(2)

zhaoyou
zhaoyou
最近在抓取网页内容,发现 HtmlCleaner 很强大呀!只是自定义tag 没有示例看,不知道怎么写。。。30
黄亿华
黄亿华
闭关了两个星期,读完了jsoup源码,也读了部分HtmlCleaner源码,不得不说后者的设计(包括性能)还是稍微弱一点。基于Jsoup改了一个Xsoup,同样支持XPath,等到稳定后整合到咱的webmagic里去13

暂无资讯

2
回答
如何让HtmlCleaner处理空内容标签时不生成自闭合的标签?

1. 现在有一HTML片段: <div class='myclass'> I Love <u>OSChina.net</u> nothin...

2013/01/26 17:55

没有更多内容

加载失败,请刷新页面

没有更多内容

htmlcleaner+xpath爬取

有两个问题,记录一下 : 1、xpath如下格式(通过firebug下面的xpath插件获得的路径): html/body/div[2]/div[1]/div[3]/ul/li/div/div/span/span[2] 此时htmlcleaner调用xpath查找元素的...

2012/09/12 08:34
2.1K
0
Top Android App使用的组件 3

8684公交 AdChina:com.adchina:易传媒广告平台 AdsMogo:com.adsmogo:芒果移动广告平台 大姨吗 AChartEngine:org.achartengine:Android上的绘图库 人人网 StickyListHeaders:com.emils...

2014/06/19 01:17
57
0
webmagic的设计机制及原理-如何开发一个Java爬虫

![image](http://static.oschina.net/uploads/space/2013/1110/200709_oP1e_190591.jpg) >此文章是webmagic 0.1.0版的设计手册,后续版本的入门及用户手册请看这里:[https://github.com/cod...

2013/07/20 14:19
67.7K
51
HTML文件转换PDF文件

闲话少说,先上代码: package com.xxxxx.util.file; import java.io.ByteArrayOutputStream; import java.io.File; import java.io.IOException; import java.io.OutputStream; import jav...

2018/04/26 12:01
239
0
【转】社会化海量数据采集爬虫框架搭建

  随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的...

2014/09/30 13:50
95
0
社会化海量数据采集爬虫框架搭建

随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据...

2013/07/27 14:22
579
0
社会化海量数据采集爬虫框架搭建

随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据...

2013/08/06 22:30
137
0
Android常用组件

UI相关 图片 Android-Universal-Image-Loader:com.nostra13.universalimageloader:异步加载、缓存、显示图片 ImageLoader:com.novoda.imageloader:异步加载、缓存、显示图片 picasso:c...

2014/06/19 00:25
42
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部