webmagic java爬虫在获取中国开源的翻页页码时,页码怎么处理

Nicll 发布于 2018/01/31 09:01
阅读 955
收藏 0

在中国开源搜索关键字,存在翻页时,获取到了翻页的页码,但是那些页码直接打开,跳转到的是第一页内容,获取不到之后的网页链接

加载中
0
首席撸出血
首席撸出血

刚在浏览器操作了一下,发现fromerr这个字段,每次都是变得,你是不是在代码里写死的?

没具体测试,如果webmagic成功不了,你就用selenium,绝对可以成功
 

Nicll
Nicll
回复@首席撸出血 : 我用selenium获取每个页面中的url了,在process也可以获取到,addTargetRequests时为什么还会把获取到的URL依次打开?可以获取到就不打开吗
Nicll
Nicll
最开始的网站可以写死,之后页码链接直接不能打开。只能用selenium了
返回顶部
顶部