jsoup的connect方法获取的document写入本地html时候乱码怎么解决呢?

elvissss 发布于 2015/06/18 15:04
阅读 291
收藏 0

如题啊。爬网站的时候遇到的

Document doc = Jsoup.connect(url).timeout(5000).userAgent("Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)").get();



然后我写入本地

BufferedWriter bw = new BufferedWriter(new FileWriter(f, true));
		bw.write(doc + "\n");
		bw.close();



打开后全是乱码。请问这个怎么解决呢?

ps:如果这个文件“f”是txt格式,打开是正常显示;如果是html格式,打开就是乱码,再用txt看timl源文件也是乱码。


我的eclipse设置是UTF-8格式。然后请问怎么把doc的格式统一一下啊?

加载中
0
不日小鸡

FileOutputStream fos = new FileOutputStream(file, false);

OutputStreamWriter osw = new OutputStreamWriter(fos, "UTF-8");

反正我这么写没有乱码

0
CoderLeon
CoderLeon
        bw.write(doc + "\n");

直接写入doc对象吗?好像不对吧,doc.html()试试呢

0
elvissss
elvissss

引用来自“不日小鸡”的评论

FileOutputStream fos = new FileOutputStream(file, false);

OutputStreamWriter osw = new OutputStreamWriter(fos, "UTF-8");

反正我这么写没有乱码

还是不行啊。。依然乱码。。。
不日小鸡
请给完整代码,反正我每次获取DOC然后更新HTML都没有乱码
0
elvissss
elvissss

引用来自“CoderLeon”的评论

        bw.write(doc + "\n");

直接写入doc对象吗?好像不对吧,doc.html()试试呢

还是不行呢。囧
0
如比如比
如比如比
一般的都是没有问题的。
返回顶部
顶部