WebMagic

软件主页
关注
webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。 以下是爬取oschina博客的一段代码: Spider.create(new Si...
加载中
2
回答
webmagic怎么执行翻页

我在爬取韩国某电商网时,准备进行翻页获取下一页商品的全部url地址。但是下一页按钮为JavaScript:void(0)我不知道该如何点击。求助各位大佬

07/04 17:10
1
回答
webmagic数抓取问题

@黄亿华 你好,想跟你请教个问题:在使用webmagic数据抓取过程中,发现数据有漏抓的现像。列表页600条,但在实际抓取的过程中只有抓到200多条。代码...

2015/04/30 08:52
2
回答
利用FileCacheQueueScheduler后抓取结束进程却无法自动停止

@黄亿华 你好,想跟你请教个问题:我在抓取网页的时候利用了FileCacheQueueScheduler,运行后发现网页已经抓取完毕,jconsole中也...

2016/04/18 15:47
1
回答
黄老师,请问webmagic这个项目您还维护吗?后续会不会出新版本?

@黄亿华 你好,想跟你请教个问题:请问webmagic这个项目您还维护吗?后续会不会出新版本?

01/02 14:17
5
回答
有关Selenium做爬虫方式的资源消耗的问题

@黄亿华 你好,想跟你请教个问题: 我们采用了selenium的webdriver作为引擎,进行网页数据的抓取、以及后续的解析、数据持久化。webdriv...

2015/02/12 09:50
2
回答
webmagic selenium+JAVA 如何自动判断,页面加载完再执行之后的代码
Nicll 的回答 2018/06/28 09:08
最佳答案
selenium的官方自带了加载完页面,再继续执行。不用单独设置。
3
回答
wemagic java爬虫获取翻页的总页码问题
Nicll 的回答 2018/06/13 09:55
最佳答案
// 时间,多个span,只获取最后一个span的内容 List<String> t = page.getHtml() .xpath("//div[@class='article-sub']/span/text()").all(); List<String> time = Arrays.asL...
2
回答
使用selenium+java模拟登陆今日头条时需要手机验证码登陆,第二次怎么免输入信息登陆?
Nicll 的回答 2018/06/13 09:46
最佳答案
首次通过手机验证码登录后,获取cookie,并将cookie保存到map中。 在主程序中定义map: public static Map<String, String> cookies; public static boolean first; JRTT.first首次为true,之后为fal...
3
回答
根据地图上的点位点击并抓取其显示的数据,有没有好的方案

首先是有一个地图,然后点击地图上的点位,抓取弹出蒙版的数据,求解

2018/05/16 10:11
1
回答
停止爬虫失败

我最近在学习WebMagic框架,但是被一个功能实现一直困扰。我想实现前端控制爬虫停止,就是说当我前端点击停止按钮时,调用后台的爬虫停止方法。但是WebM...

2018/05/04 16:33
1
回答
使用selenium获取今日头条的个人收藏页面,怎么匹配到li标签
Nicll 的回答 2018/03/20 15:29
最佳答案
句柄转换之后即可获取到。
1
回答
1
回答
webmagic java使用selenium模拟打开翻页网页时,是获取什么内容,直接把url在string拼接打不开

模拟打开了翻页,不知道要获取什么,把url拼接在一个html形式里,但process里没有内容。在SeleniumDownloader基础上进行修改PAG...

2018/02/01 15:36
2
回答
webmagic java爬虫使用selenium模拟谷歌浏览器,获取了翻页的每页的网址链接传到process,运行时为什么还会打开每页的网址?

如图,已经获取到想爬取的网址信息,在process那边也获取的到。 但是addTargetRequests这些网址,就会又打开了,怎么能不打开这些单个的网址了?

2018/02/02 09:19
1
回答
用selenium爬取中国开源搜索界面的翻页,只能打开一个页面,怎么全都打开?
Nicll 的回答 2018/02/01 14:47
最佳答案
直接将下一页按钮放进循环,可以循环点击,之后结束退出。
1
回答
webmagic java爬虫在获取中国开源的翻页页码时,页码怎么处理

在中国开源搜索关键字,存在翻页时,获取到了翻页的页码,但是那些页码直接打开,跳转到的是第一页内容,获取不到之后的网页链接

2018/01/31 09:01
2
回答
webmagic Java 爬虫怎么能够在第二次之后爬取发布时间最新的链接的信息

webmagic Java 爬虫怎么能够在第二次之后爬取发布时间最新的链接的信息? 获取到时间了,但是链接怎么判断了再加进去? 初始网址如图,想从具体网页...

2018/01/30 09:15
1
回答
webmagic如何处理指定网页的所有评论页

当获取的网页内容含有评论时,获取的第二页评论里,又有三个跳转页,这种怎么处理比较好,每跳转一次,链接地址就在当前地址上叠加了,要怎么才能固定成直接的页面地址?

2018/01/17 15:35
2
回答
webmagic java爬虫获取网页中的超链接时,超链接的地址是不完整的,怎么能获得超链接的完整地址?

如图所示,下获取初始页面的这些超链接中的内容,获取的链接都是 ?p=1 这种, 隐藏的地址怎么加上?

2018/01/11 10:38

没有更多内容

加载失败,请刷新页面

返回顶部
顶部