httpclient执行get请求遇到的问题

算法与编程之美 发布于 2013/02/06 23:56
阅读 894
收藏 0

利用httpclient或其他java库,能不能得到,浏览器在请求一个url时,执行的所有get请求列表(这些get请求可能包括css, js, img etc. )

问题的背景是:在抓取过多的淘宝宝贝页面后,会出现taobao safety refuse,需要输入验证码,才可以继续后面的请求,所以想请教各位前辈,有没有什么办法可以解决? 我初步分析的原因可能是淘宝服务器检测到我构造的宝贝请求页面每次只请求了该document,而没有请求subresources如css, js, img等,所以想模拟浏览器的行为,不知道能不能解决

示例:

url: http://detail.tmall.com/item.htm?id=16657124777&

加载中
0
终曲
终曲
页面的每个静态资源都是一个独立的get请求,模拟浏览器的行为就一定会get到那些你不需要的css、js等等,不如直接写浏览器插件
0
绝对零度
绝对零度
selenium解决一切。
0
leo108
leo108
淘宝有API可以抓淘宝宝贝啊,干嘛还得自己去抓
算法与编程之美
算法与编程之美
淘宝开放平台提供的api,能够抓到的数据比较少,所以需要自己解析
返回顶部
顶部