HttpClient做网页爬虫遇到的问题!!!

张森 发布于 2012/03/17 21:53
阅读 1K+
收藏 3
我的目的是,使用HttpClient解析人人网,先实现登陆,然后在实现发状态。

解析登陆时,我找到了人人网的登陆界面,查看源码,发现带有账号和密码的那个表单提交的地址是http://www.renren.com/PLogin.do,然后我是用Httpclient4.1.3的jar包进行编程,实现了登陆,比较麻烦的是这个地址中间还跳转了一次,所以需要用到Httpclient重定向,不过最后还是登陆成功了。

现在的问题是:我用同样的方法找了一下发状态那个表单提交的地址是http://shell.renren.com/305219253/status,但是我照原来那样做却不能发帖,在网上我找了一下,有高手实现了Httpclient解析人人网发状态,我看了一下源码,结果人家这里的表单提交的地址并不是这个。

所以在这里,我想请教一下高手,怎么解析出表单提交的地址,有没有什么工具来追踪一下浏览器提交表单这个过程,从而解析出表单提交的地址,如果有,那是什么工具,最好讲解一下这个工具怎么用。如果没有这种工具,该怎么解析!

期待高手!!!!
加载中
0
浪客Dandy
浪客Dandy
Wireshark最直接了
0
张森
Wireshark这类抓包工具应该没有啥用吧!抓包工具应该只能抓取到包的IP和使用端口,每个数据包中应该都是加密的,就算破解了,还得在里边在进行查找,所以这种方法应该不太可取吧!chrome浏览器开发人员工具中的network可以抓取到request请求和response响应,不过我不会用这个抓取表单的递交地址,期待高手!
0
算法与编程之美
算法与编程之美
在chrome中按f12键后,点击'network'标签,刷新页面,就会出现该页面请求期间出现的所有的get和post请求,对于post请求,非常方便的能够看到post请求的地址和需要的参数。
0
优雅先生
优雅先生
Fiddler或者Firefox的HttpFox、LightHttpHeader插件或者Google Chrome浏览器的控制台的Network面板
返回顶部
顶部