请问一下关于php采集百度知道的问题

ffvsnn520 发布于 2015/03/17 17:58
阅读 143
收藏 0
PHP

php用fsockopen和curl都测试过了,当采集的时候百度知道里面的内容会被替换成图片显示.发送的请求头部一致.我想请问一下这种该如何解决.搞的非常纠结.麻烦知道的大神详细的了解一下,并提供一个方法,非常感谢.

加载中
0
甘薯
甘薯

你需要仔细观察浏览器和百度交互的过程,

完全模拟出来才有可能不被百度阴掉.

甘薯
甘薯
回复 @ffvsnn520 : 你确定你组合了所有的数据没有任何遗漏?不行就抓包看看, 比较一下有什么不同
f
ffvsnn520
回复 @甘薯 : 这个已经用了.我用的是firebug把请求头部都写到里面了。curl和fsockopen都尝试了.因为还是没办法所以才到这里来请教.感觉真的很奇怪。
甘薯
甘薯
回复 @ffvsnn520 : 你观察一下浏览器和百度交互的过程, 把浏览器请求数据和cookie之类的东西都复制到你的线上请求, 这样百度应该会认为你的请求是一个普通的浏览器就不会发图片给你了.
f
ffvsnn520
你好,求助一下.不知道他是用什么来判定我是采集的.我把页面下载到本地,然后采集是没有问题的.但是用线上的链接采集,文字就会变成图片....这个应该不是交互而是服务器里面有什么其他的设置吧...不是很清楚,所以请教一下.多谢
返回顶部
顶部