WebMagic

软件主页
关注
webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。 以下是爬取oschina博客的一段代码: Spider.create(new Si...
加载中
1
回答
WebMagic 入库时 mapper注入提示空指针

mapper空指针。没有办法插入数据

2019/12/06 14:15
1
回答
WebMagic 如何正确的处理报错的请求?

有部分请求失败,可能是网络的原因,对于这部分请求我应该如何正确的去处理?因为是初探爬虫这一块,不是太懂。

2020/05/16 14:22
1
回答
新手使用webmagic返回code: 412,请教下是什么原因 ,项目在此卡住了,急急急

public class TestPageProcessor implements PageProcessor { private Sit...

2020/04/01 19:55
2
回答
如何停止webmagic的链接管理的去重
黄亿华 的回答 2016/02/05 20:40
最佳答案
WebMagic通过DuplicateRemover来去重,你可以重写一个什么都不做的DuplicateRemover来不去重。 spider.setScheduler(new QueueScheduler().setDuplicateRemover(new DonothingDuplicat...
2
回答
webmagic怎么执行翻页

我在爬取韩国某电商网时,准备进行翻页获取下一页商品的全部url地址。但是下一页按钮为JavaScript:void(0)我不知道该如何点击。求助各位大佬

2019/07/04 17:10
1
回答
webmagic数抓取问题

@黄亿华 你好,想跟你请教个问题:在使用webmagic数据抓取过程中,发现数据有漏抓的现像。列表页600条,但在实际抓取的过程中只有抓到200多条。代码...

2015/04/30 08:52
2
回答
利用FileCacheQueueScheduler后抓取结束进程却无法自动停止

@黄亿华 你好,想跟你请教个问题:我在抓取网页的时候利用了FileCacheQueueScheduler,运行后发现网页已经抓取完毕,jconsole中也...

2016/04/18 15:47
1
回答
黄老师,请问webmagic这个项目您还维护吗?后续会不会出新版本?

@黄亿华 你好,想跟你请教个问题:请问webmagic这个项目您还维护吗?后续会不会出新版本?

2019/01/02 14:17
5
回答
有关Selenium做爬虫方式的资源消耗的问题

@黄亿华 你好,想跟你请教个问题: 我们采用了selenium的webdriver作为引擎,进行网页数据的抓取、以及后续的解析、数据持久化。webdriv...

2015/02/12 09:50
2
回答
webmagic selenium+JAVA 如何自动判断,页面加载完再执行之后的代码
Nicll 的回答 2018/06/28 09:08
最佳答案
selenium的官方自带了加载完页面,再继续执行。不用单独设置。
3
回答
wemagic java爬虫获取翻页的总页码问题
Nicll 的回答 2018/06/13 09:55
最佳答案
// 时间,多个span,只获取最后一个span的内容 List<String> t = page.getHtml() .xpath("//div[@class='article-sub']/span/text()").all(); List<String> time = Arrays.asL...
2
回答
使用selenium+java模拟登陆今日头条时需要手机验证码登陆,第二次怎么免输入信息登陆?
Nicll 的回答 2018/06/13 09:46
最佳答案
首次通过手机验证码登录后,获取cookie,并将cookie保存到map中。 在主程序中定义map: public static Map<String, String> cookies; public static boolean first; JRTT.first首次为true,之后为fal...
3
回答
根据地图上的点位点击并抓取其显示的数据,有没有好的方案

首先是有一个地图,然后点击地图上的点位,抓取弹出蒙版的数据,求解

2018/05/16 10:11
1
回答
停止爬虫失败

我最近在学习WebMagic框架,但是被一个功能实现一直困扰。我想实现前端控制爬虫停止,就是说当我前端点击停止按钮时,调用后台的爬虫停止方法。但是WebM...

2018/05/04 16:33
1
回答
使用selenium获取今日头条的个人收藏页面,怎么匹配到li标签
Nicll 的回答 2018/03/20 15:29
最佳答案
句柄转换之后即可获取到。
1
回答
1
回答
webmagic java使用selenium模拟打开翻页网页时,是获取什么内容,直接把url在string拼接打不开

模拟打开了翻页,不知道要获取什么,把url拼接在一个html形式里,但process里没有内容。在SeleniumDownloader基础上进行修改PAG...

2018/02/01 15:36
2
回答
webmagic java爬虫使用selenium模拟谷歌浏览器,获取了翻页的每页的网址链接传到process,运行时为什么还会打开每页的网址?

如图,已经获取到想爬取的网址信息,在process那边也获取的到。 但是addTargetRequests这些网址,就会又打开了,怎么能不打开这些单个的网址了?

2018/02/02 09:19

没有更多内容

加载失败,请刷新页面

返回顶部
顶部