这个是文件的详情页
http://guide.medlive.cn/guidelinesub/3695
这个 是 我 登陆后 下载某个文件,根据 下载链接 和 详情页、文件名 对比 得出的 下载链接:
http://webres.medlive.cn/upload/temp/ea/2653764/c207077dfcdf0b72dc2fffd026c7a476/%E3%80%90%E5%8C%BB%E8%84%89%E9%80%9A%E3%80%912016%E5%B9%B4%E6%9B%B4%E6%96%B0%E7%89%88GOLD%2B%E6%85%A2%E6%80%A7%E9%98%BB%E5%A1%9E%E6%80%A7%E8%82%BA%E7%96%BE%E7%97%85%E8%AF%8A%E6%96%AD%E3%80%81%E6%B2%BB%E7%96%97%E5%92%8C%E9%A2%84%E9%98%B2%E7%9A%84%E5%85%A8%E7%90%83%E7%AD%96%E7%95%A5%E7%AE%80%E4%BB%8B.pdf
转码 后 :
http://webres.medlive.cn/upload/temp/ea/2653764/c207077dfcdf0b72dc2fffd026c7a476/【医脉通】2016年更新版GOLD%2B慢性阻塞性肺疾病诊断、治疗和预防的全球策略简介.pdf
很奇怪,
在登录的情况下 直接 下载文件 没问题;
使用 程序(HttpClient3) 下载 失败,把程序 内生成的地址 在浏览器 打开,返回 404,但是你等一会,再使用浏览器下载,又能下载了,不过 程序 还是不行。
程序 什么时候可以呢,在你 登陆的情况下,浏览器下载了一次文件,该文件 就能在程序得到 流了。。。
连接中 的 /temp/ea/2653764/ 的 2653764好像 是 用户id
怎么破,怎么能 爬虫 下载下来呢?
那你模拟登录不就完了,留存cookies.
这都没啥啊...