python内置HTMLParser解析器的疑问

PepsiZero 发布于 2013/07/17 15:52
阅读 683
收藏 0
最近在写一些python 3.2的小脚本,需要html的解析,考虑到减少第三方依赖就直接使用python内置的HTMLParser的解析器,基本上能满足我的需求,但是有一种情况就网页本身的html含有错误比如 “ </</td>” 这种,就会引起 html.parser.HTMLParseError: bad end tag: '</</td>' 异常,请问怎么处理这种情况,先谢谢了
加载中
0
kiwivip
kiwivip
处理对象不标准当然不能用标准库啦~先把不标准的标签去掉吧~
0
PepsiZero
PepsiZero
自己顶一下,求高人
0
七念
七念
那你就先检查一下标签是不是正确的呗
PepsiZero
PepsiZero
看网页源代码确实是tag错了
0
PepsiZero
PepsiZero
无赖了,看来只能用 第三方的解析库了
0
Lyrus
Lyrus
可以先用tidy处理一下,剩下不能处理的只能手工处理了
PepsiZero
PepsiZero
已经换成beautifulsoup了,而且从使用的简易性来看,htmlparser用起来比较麻烦
返回顶部
顶部