jsoup 获取内容不全的问题

韩临风 发布于 2019/09/09 20:26
阅读 1K+
收藏 0

 

使用jsoup读取URL,解析内容。但是遇到获得文档不全。

1. 设置maxBodySize(0)不起作用,后来在http://www.wityx.com/post/288_1_1.html 帮助下获取到完整的内容

2. 赋值时发现,某项数据,在debug时我可以获取到,但不debug时却获取不到。后来在https://blog.csdn.net/weixin_34130389/article/details/85887340的启发下,每一次jsoup的connection连接赋值前,都线程休眠1s,仍不行;2s秒;还不行。总之经过各种尝试,后来发现问题是在jsoup获取到内容之后,设置线程休眠5s即可。原因未知。

 Jsoup.connect(url4).timeout(8000);

        Jsoup.connect(url4).method(Connection.Method.GET);

        Jsoup.connect(url4).maxBodySize(0);

        Jsoup.connect(url4).followRedirects(false);

        Connection.Response resp = Jsoup.connect(url4).execute();

        try {
            Thread.sleep(5000);//在jsoup获取到内容之后,经过5s在解析即可
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
 System.out.println("URL4》》"+url4);

        Document document2 = resp.parse();

 

 

加载中
0
kakai
kakai

多大的文档?我原来爬取国家统计局的省市县乡镇村的数据从来没遇到过

0
熊大1992
熊大1992

 应该是控制台输出不完整,导出来就不会了

OSCHINA
登录后可查看更多优质内容
返回顶部
顶部