webmagic Java 爬虫怎么能够在第二次之后爬取发布时间最新的链接的信息

Nicll 发布于 2018/01/30 09:15
阅读 564
收藏 1

webmagic Java 爬虫怎么能够在第二次之后爬取发布时间最新的链接的信息?

获取到时间了,但是链接怎么判断了再加进去?

初始网址如图,想从具体网页中进行判断,再添加进去

加载中
0
CainGao
CainGao

转换吧,这种基于当前时间的 '22小时前' 其实就是当前时间减22小时的具体时间,你上次抓取这个网站的时间是什么时间.然后获取之后时间的连接就可以.但是实际情况下可能有太多的问题,不建议直接用时间来判断的.因为时间是对方网站的东西,只是基于时间的规则还是无法获取的.因为某些网站这个时间可能是通知时间,或许其他的时间.比如,停电通知之类的.这个时间可能就是未来半年的时间.

Nicll
Nicll
嗯,想之后只爬取最新的数据,只能根据时间判断了
0
l
luchatex
转换后和当前时间比较下,只抓取你设定的时间内的内容
返回顶部
顶部