htmlparser解析网页爬虫

chunshui 发布于 2014/07/22 21:57
阅读 2K+
收藏 0

在爬取网页时,出现下面这样的错误,如何解决?

org.htmlparser.util.ParserException: Exception getting input stream from http://www.dianping.com/shop/10335116 (Server returned HTTP response code: 403 for URL: http://www.dianping.com/shop/10335116).;

java.io.IOException: Server returned HTTP response code: 403 for URL: http://www.dianping.com/shop/10335116
加载中
0
蟋蟀哥哥
蟋蟀哥哥
403,改改频率和head呢
0
zheng_pat
zheng_pat
爬的太多,被封杀了吧,找出规律,定时修改下头信息
0
chunshui
chunshui

引用来自“蟋蟀哥哥”的评论

403,改改频率和head呢
有没有具体的实例
0
chunshui
chunshui

引用来自“zheng_pat”的评论

爬的太多,被封杀了吧,找出规律,定时修改下头信息
有没具体的实例
0
MiniBu
MiniBu
加一个 Thread.sleep(5000);   貌似之前用Jsoup的时候也经常出现Connect timeout或Read timeout类问题。
0
a
a12939026
一般大网站对同一IP的大量访问都有防御措施的。 试试换IP吧。
返回顶部
顶部