HTMLParser 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
HTMLParser 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
HTMLParser 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 LGPL
开发语言 Java
操作系统 跨平台
软件类型 开源软件
所属分类 Web应用开发HTML解析器
开源组织
地区 不详
投 递 者 不详
适用人群 未知
收录时间 2008-09-14

软件简介

HTML Parser 是一个对HTML进行分析的快速实时的解析器,最新的发行版本是1.6,另外2.0的开发版本已经两年没有进展了。

示例代码:

 Parser parser = new Parser ("http://whatever");
NodeList list = parser.parse (null);
Node node = list.elementAt (0);
NodeList sublist = node.getChildren ();
System.out.println (sublist.size ());

Javadoc:http://www.ostools.net/apidocs/apidoc?api=HTMLParser

展开阅读全文

评论 (2)

加载中
htmlparser是否支持html5? HTMLParser
2013/06/07 21:09
回复
举报
.net htmlparse HTMLParser
2014/03/23 11:26
回复
举报
更多评论
暂无内容
2014/06/08 10:45

HTMLParser学习笔记

HTMLParser编写步骤 实例化解析器 Parser parser = new Parser(url); 设置编码器,不设置可能会导致无法解析 parser.setEncoding("GBK"); 实现NodeFilter 接口,用于定义接受筛选的内容 NodeFilter frameFilter = new NodeFilter() { //实现NodeFilter接口的accept方法,定义筛选的内容 public boolean accept(Node node) { if(node.getText().startsWith("frame src=")) return true; else return false; } }; 4.如果存在多个筛...

0
3
发表了博客
2018/11/22 00:25

HTMLParser 笔记

# 关于html.parse.HTMLParser的使用 from html.parser import HTMLParser class MyHtmlParser(HTMLParser): # 使用“<!DOCTYPE html>”将会被调出来 def handle_decl(self, decl): # 实现基类的方法 HTMLParser.handle_decl(self, decl) # 自定义输出 print('decl {}'.format(decl)) # 开始标签 def handle_starttag(self, tag, attrs): HTMLParser.handle...

0
0
发表了博客
2012/12/03 21:23

Python2.7 HTMLParser模块学习

HTMLParser模块主要是用来解析HTML文件。 HTMLParser模块有一个HTMLParser类,用户在解析HTML文件时需要重定义其中handle_*方法,该类有如下方法: feed(data)分析一些文本数据 close()如果碰到文件结束标记,强制处理缓冲区数据 reset()重置实例,所有未处理的数据都会丢失,初始化时自动调用 getpos()返回当前行的偏移位置,行列 get_starttag_text()返回最近打开过的开始标记文本 handle_starttar(tag,attrs)这个方法处理开始...

0
1
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了问答
2015/03/04 12:41

网络爬虫应该怎么抓取调用JS函数的链接地址

代码示例: <a href = "javascript:test('test');">test</a> 类似如上形式的代码,我应该怎么抓取链接地址。

4
1
发表了问答
2014/07/16 17:28

HTTPclient+htmlparser开发java网络爬虫

在用HTTPclient+htmlparser开发java网络爬虫时。出现这个错误: org.htmlparser.util.ParserException: Connection refused: connect; java.net.ConnectException: Connection refused: connect at java.net.PlainSocketImpl.socketConnect(Native Method) at java.net.PlainSocketImpl.doConnect(PlainSocketImpl.java:333) at java.net.PlainSocketImpl.connectToAddress(PlainSocketImpl.java:195) at java.net.PlainSocket...

2
0
发表了问答
2008/10/05 17:06

使用 HttpClient 和 HtmlParser 实现简易爬虫

https://www.ibm.com/developerworks/cn/opensource/os-cn-crawler/

5
33
发表了问答
2012/03/18 18:34

请教一下关于如何抓取新浪微博手机版的数据

最近,由于实验设计需要,需要大量抓取微博中的数据, 在采取了一些网友的建议下,我试着写了一个Java程序配合HTMLparser去抓取新浪微博手机版页面的数据。 但是,在抓取用户页面中的数据时,意外遇到了需要本人先登录后才能访问他人页面的问题。 为了解决登录问题,我查取了大量资料。似乎HttpClient能配合实现自动登录。 但是,新浪微博手机版的登录框却是一个很特别的登录设计, 请看代码高亮部分。 <form action="login_su...

6
2
发表了问答
2010/12/17 08:27

OSChina原创:使用 jsoup 对 HTML 文档进行解析和操作

jsoup 简介 Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从HTML中攫取你所需的信息 和扩展 HTMLParser 对自定义标签的处理能力。但现在我已经不再使用 htmlparser 了,原因是 htmlparser 很少更新,但最重要的是有了 jsoup 。 jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可...

38
168
发表了问答
2016/01/25 14:39

网站被植入底端广告,而我却找不到来源,大家有什么好办法?

最近开发的网站底部有百度广告,而我查看了我的模板文件、js都没有任何改变,大家有没有碰到过?如何排查被广告的问题?碰到这个事情,那叫郁闷啊。

22
0
发表了问答
2015/11/03 21:55

HTMLParser 如何删除指定节点

HTMLParser 如何删除指定节点,如删除所有的img节点并保存 HTML串从数据库读取,删除后再保存到数据库

2
0
发表了问答
2015/07/28 13:59

获取HTML元素对象的方法

<form id="formId" name="formName" action=""> age:<input id="inputId" name="inputName" type="text"/> <input type="submit" value="submit"/> </form> 通过这条语句“formId.inputId.value”或者 “formName.inputName.value”就可以获得age输入框中的值。 请问这是什么原理?有什么需要注意的吗?希望了解的人帮助解释一下。...

2
0
发表了问答
2015/01/11 00:36

android 如何使用dom解析HTML?

想要解析www.news.sina.cn的HTML文件,但是使用dom出现异常了。具体在builder.parse(inputStream);这里出异常。 它是不是只可以传xml?

7
0
发表了问答
2015/01/10 11:15

我通过jfinal用jsoup把远程服务器HTML数据解析出来,我如何让数据通过json显示出来?

大体是这样的,我在制作一个教务处成绩查询IOS APP, 1. 通过JFinal框架 POST到服务器返回来的数据(返回的是HTML页面,无JSON) 2. 利用jsoup API获取HTML里面的值(提取表格里面的 td,th值) 3. 提取出来变成String类型,,样本: "张三 123123123 1994-1015 中国 辽宁 计算机科学与技术" 中间有  我给替换成空字符了.,所以每个值之间有空格. 4. 想把这些数据显示出来,放到SAE云上. 5.通过指定SAE地址获取到JSON数据,解析并显示在U...

11
0
发表了问答
2014/09/03 10:31

如何获取html中的文本

<html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>Dom遍历</title> </head> <body> ####1 <div id="frm0"> ####2 <div id="frm1"> ####3 <div id="frm2"> </div> ####4 </div> </div> </body> </html> 将####1、2...

17
0
发表了问答
2014/07/22 21:57

htmlparser解析网页爬虫

在爬取网页时,出现下面这样的错误,如何解决? org.htmlparser.util.ParserException: Exception getting input stream from http://www.dianping.com/shop/10335116 (Server returned HTTP response code: 403 for URL: http://www.dianping.com/shop/10335116).; java.io.IOException: Server returned HTTP response code: 403 for URL: http://www.dianping.com/shop/10335116...

6
0
发表了问答
2014/06/02 12:00

关于怎样获取JD等购物网站的价格信息

我在做毕业设计的时候,遇到个问题,抓取网页的信息,但是JD的价格信息做过防爬处理所以我抓取不下来,有没有大神帮个忙,教教我怎么写代码,或者直接给我发代码,我使用java写的,急!先谢过了

7
1
发表了问答
2014/06/18 15:47

关于匹配js标签的正则表达式

两个正则表达式: <script[^>]*>[^(</script)]*</script>和 <script[^>]*?>.*?</script>,他们区别在哪里? 用来匹配网页源码中js标签的表达式,一个是网上找的,一个是自己写的,

7
0
发表了问答
2013/12/19 21:11

HttpClient怎么获取到iframe中的内容

我用HttpClient构造登陆表单登陆后,登陆页面中的主要内容是通过iframe加载过来的 <li><a href="login.aspx?xh=jk&xm=&gnmkdm=MM120306" target='zhuti' onclick="GetMc('登陆信息');">登陆信息</a></li> 然后我试着用HttpClient构造参数去加载iframe时,却加载不了,post提交时返回状态码302,跳转到登陆界面。 火狐的在新窗口中打开框架功能时可以打开该frame,但是刷新后就会跳转到登陆界面 请问怎样才能访问到该iframe,并获...

4
0
发表了问答
2013/09/22 09:34

jsoup怎么解析javascript动态改变html标签的属性值?

jsoup怎么解析javascript动态改变html标签的属性值? 我页面里面有的html标签是通过javascript动态生成的。我想通过jsoup来获取这些动态生成的值。

7
0
发表了问答
2008/10/05 16:59

从HTML中攫取你所需的信息

本文并非想通过分析HTML的语法然后从中解析出数据,这样做实现困难而且没有什么实际应用的意义,或者应该这样说:我们并不想自己去实现一个HTML语 法的分析器。我们要做的仅仅是从HTML中提取我们所需的信息。不同于XML这种对格式要求非常严格的标志语言,HTML在推出时并没有对其格式进行严格 的定义,比如HTML中标签并不一定要成对出现,但是又要求浏览器能尽量的正确显示其所要表达出来的内容。浏览器经过多年发展其适应能力越...

1
1
发表了问答
2012/07/30 15:08

python中如何利用HTMLParser抽取文本内容

我查了下大部分范例都是抽取标签属性的 比如<a href="链接地址">链接内容</a> 链接地址我知道怎么抽取 但是链接内容我该如何抽取呢?

4
2
发表了问答
2013/10/29 21:15

utf8的网页为什么还有十六进制的字符呢?

在学校图书馆的网页:http://opac.lib.ustc.edu.cn/opac/top100.php 如上图所示,"verilog(31)" 在网页源码中是“verilog (31)” 1.请问这是为什么啊? 2.请问怎么把它们转码成可读的utf8文字? 非常感谢~~

3
0
发表了问答
2013/06/19 18:19

关于爬虫的有关问题,如何使用htmparser

@黄亿华 你好,想跟你请教个问题:请问一下用htmlparser如何去掉网页中的标签后字符间不留空格啊,我去掉标签后打印出来有好多空格和回车,非常不好。

4
1
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
2 评论
230 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部