请问 这个 文件怎么下载(Java爬虫),是 怎么验证的啊?在等。。

Metro2033 发布于 2016/10/09 17:44
阅读 228
收藏 0

这个是文件的详情页

http://guide.medlive.cn/guidelinesub/3695


这个 是 我 登陆后 下载某个文件,根据 下载链接 和 详情页、文件名   对比 得出的  下载链接:

http://webres.medlive.cn/upload/temp/ea/2653764/c207077dfcdf0b72dc2fffd026c7a476/%E3%80%90%E5%8C%BB%E8%84%89%E9%80%9A%E3%80%912016%E5%B9%B4%E6%9B%B4%E6%96%B0%E7%89%88GOLD%2B%E6%85%A2%E6%80%A7%E9%98%BB%E5%A1%9E%E6%80%A7%E8%82%BA%E7%96%BE%E7%97%85%E8%AF%8A%E6%96%AD%E3%80%81%E6%B2%BB%E7%96%97%E5%92%8C%E9%A2%84%E9%98%B2%E7%9A%84%E5%85%A8%E7%90%83%E7%AD%96%E7%95%A5%E7%AE%80%E4%BB%8B.pdf


转码 后 :

http://webres.medlive.cn/upload/temp/ea/2653764/c207077dfcdf0b72dc2fffd026c7a476/【医脉通】2016年更新版GOLD%2B慢性阻塞性肺疾病诊断、治疗和预防的全球策略简介.pdf

很奇怪,

在登录的情况下 直接 下载文件 没问题;

使用 程序(HttpClient3) 下载 失败,把程序 内生成的地址 在浏览器 打开,返回 404,但是你等一会,再使用浏览器下载,又能下载了,不过 程序 还是不行。

程序 什么时候可以呢,在你 登陆的情况下,浏览器下载了一次文件,该文件 就能在程序得到 流了。。。


连接中 的 /temp/ea/2653764/    的 2653764好像 是 用户id

怎么破,怎么能 爬虫 下载下来呢?





加载中
0
loyal
loyal

那你模拟登录不就完了,留存cookies.

这都没啥啊...

Metro2033
Metro2033
其实 我用ws 查看后发现他 做了跳转。。。这个 并非真正的地址。
loyal
loyal
回复 @Inszt : 不可能.看来你不会用浏览器.
Metro2033
Metro2033
我觉得 可能 是 点击了 这个 下载 按钮后, 他 做了些 事情,因为这个 按钮 是 js 方法提交的;但是 观察不到 因为 直接就弹出下载了,没办法 用网络面板 查看
Metro2033
Metro2033
我试了,不行啊;并且 很奇怪的是 当一个 文件 我用浏览器 下载过了;再运行程序,那个文件就能下载了,同样的程序,之前 还不行。。。
返回顶部
顶部