搜索引擎怎么实现的自动根据网页编码来以不同的编码抓取的网页

依旧安然 发布于 2013/08/02 15:08
阅读 95
收藏 0
晕死了,我写了个网络爬虫来抓取网页。但是开始以固定的编码抓取网页时候,有的网页没有乱码,有的又是乱码。我也知道,网页的< meta>标签里面指定了编码,但是在抓取之前我不知道,难道我抓取两次,然后根据第一次解析的编码,再去第二次以正确的编码来抓取。求解各位大神,真的好想知道,各大搜索引擎他们是怎么解决这个问题的。
加载中
0
crazybun
crazybun
头信息的 Content-Type也有指定编码吧
0
杨同学
杨同学
可是编码只跟你打开的时候有关,跟你抓的时候不是没有关系吗
0
狮子的魂
狮子的魂

1. 找Content-Type头信息,如果有以这个为准。

2. 找meta标签。

如果有Content-Type,很好解决,按照给定的编码反解码即可。

没有Content-Type先按照ISO8859-1或者ASCII解码信息流,再查找获取编码meta,然后再使用得到的编码解码即可。

返回顶部
顶部