1
回答
python简单爬虫
百度AI开发者大赛带你边学边开发,赢100万奖金,加群:418589053   

本人小白一枚,刚刚入爬虫不久,趁着闲暇时段想搞一点简单的爬虫,于是把目标放到zhenaiwang,由于发现了该网站的ID规律,所以使用format手动添加ID的方式进行爬虫(主要是爬爬图片),但是发现这样手动添加的ID中有很多都是没有图片的,爬虫的效率很低,所以准备去搜索页面进行爬虫,该页面是用jsonp的异步爬取方式,在抓包过程中找到了请求的url,但是在浏览器中打开却是空的(抓包里面是有数据的,例如个人ID等等信息),有没有大佬可以帮忙看看,给个解决方案啊?谢谢大佬们。

<无标签>
举报

分析用户id规则,id自动生成,对请求结果进行校验,过滤空值,可以多个程序使用不同的id生成规则同时获取。请求频率过高 可能需要用代理。

--- 共有 2 条评论 ---
我今年大三 回复 @月亮下的么么哒 : 你现在的id是手动添加的对吧。你用程序自动生成试试 i++? 对返回的结果进行解析。没有图片就继续i++? 12个月前 回复
月亮下的么么哒他这个id的规律很简单的,因为在搜索页面中会有很多符合条件的人(他推荐的人一般都是有图片的,除非有些会员隐藏图片不让你看),但是你只要申请一个账号他就会给你一个id,这个id有可能是僵尸id,没有图片,只有注册信息,导致我每次打开这种页面就很浪费时间,我目的是要下载有图片的id。 12个月前 回复
顶部