正文提取 getHtmlByCharsetDetect() gb2312 中文编码的时候 生僻字 或者繁体字 乱码

JCodeMan 发布于 2015/12/30 14:58
阅读 768
收藏 0

http://www.baizhan.net/zt/20120426/10039.html

生僻字或者繁体字 乱码

请问怎么解决?

加载中
0
CrawlScript
CrawlScript
这个用的java自带的解码,后面我看看怎么解决
CrawlScript
CrawlScript
@JCodeMan 一般是自己爬数据,调用正文提取时给html字符串,爬的数据自己设定编码就行
JCodeMan
JCodeMan
判断 charset 等于 gb2312 的话,让​ charset = gbk 是不是能避免码​
0
JCodeMan
JCodeMan

 判断 charset 等于 gb2312 的话,让 charset = gbk 是不是能避免码

0
JCodeMan
JCodeMan

亲测可行。

返回顶部
顶部