1
回答
webmagic中Selenium的动态实现案例HuabanProcessor,一个连接池类,一个下载类,运行的config.ini是什么,要自己写配置文件吗,获取翻页的网页内容

使用WEBMAGIC的案例时,运行程序时,会有一个config配置文件。 但是没有找到,是在哪里写? 谷歌驱动和selenium测试可以成功,但是官方案例...

2018/01/11 17:26
2
回答
webmagic java爬虫得到的文件怎么修改文件的展现格式
Nicll 的回答 2018/01/11 10:40
最佳答案
直接把html的格式作为字符串传到文件中,可以展现了。 文件里获得的是div块。
1
回答
java webmagic爬虫在原网页获取的网页中又出现需要翻页,怎么获取翻页的内容?

从初始网页获取到的网页内容中,又包含翻页内容,怎么获取这个地址内容? 比如每个网页的评论内容,是嵌套一个爬虫?

2018/01/10 11:08
2
回答
webmagic网络爬虫将爬取到的内容保存到本地文件夹,怎么把本地文件夹路径存到数据库中
Nicll 的回答 2018/01/05 10:27
最佳答案
可以通过FildPipeline存储名称来定义,再在PROCESS里存储数据库的名字统一起来。
2
回答
webmagic的example运行失败

我在eclipse中建立工程后将webmagic/lib中的除webmagic-core和webmagic-extension外的jar包导入工程,又将w...

2015/12/16 20:13
3
回答
Java webMagic 如何爬取知乎回答?

用webmagic抓取知乎某个问题下的所有回答时候,每次只能获取前两条回答。 查了各种博客,试了各种方法,总是只返回2条回答,或者直接401。 o.a.h...

2017/11/21 09:18
1
回答
关于webmagic的xpath选取多个节点的问题

@黄亿华 你好,想跟你请教个问题: 在这个网站:http://www.huxiu.com/article/130810/1.html?f=index_to...

2015/11/10 18:30
13
回答
使用Xpath提取网页元素

@黄亿华 你好,想跟你请教个问题: 使用您的webmagic,在用Xpath选取页面元素时,选取不到。 描述:在CSS网页布局的网页中,使用是正常的,但是...

2013/11/29 15:57
8
回答
用eclipse跑webmagic抓取网页例子无任何输出?

eclipse跑的就是如下的例子,但是控制台没输出,这个是咋回事了,无论运行还是debug模式?新手不太懂。 控制台输出: log4j:WARN No a...

2017/02/20 19:47
1
回答
WebMagic 断点续爬 有没有什么更好的方案啊?

@黄亿华 你好,想跟你请教个问题:WebMagic 断点续爬 有没有什么更好的方案啊? 我目前采用的方式就是:对所有已经采集的地址进行标识,判断是否采集过...

2017/07/09 13:59
4
回答
webmagic 可以在PageProcessor 的process方法中控制停止?

@黄亿华 你好,想跟你请教个问题:Spider 是不是不会在 page.getTargetRequests()为空的时候自动停下来的??如果不会停的话,能...

2014/03/05 17:30
2
回答
关于webmagic的代理ip池

@黄亿华 关于webmagic代理池的使用,文档里里的DEMO是错误的,可否给个正确的方式!

2017/01/04 10:11
1
回答
关于webmagic的线程停止

@黄亿华 你好,想跟你请教个问题:webmagic这个爬虫工具最近在使用,工具很强大,大赞!现在我在使用的过程中有个问题,在爬取了一定的数据后,怎么停止?...

2017/04/26 17:46
4
回答
webmagic表格爬行问题

有一个如下的TABEL,要获得每一行TR的TD中的内容: <div id="table_Head"> <table width="100%> <thead...

2017/04/10 23:27
2
回答
2
回答
close_wait 释放

@黄亿华 你好,想跟你请教个问题:您好,我最近在使用您的webmagic爬虫时遇到close_wait问题,我是参照您给的jobhunter样例去爬学校的...

2016/06/12 17:18
7
回答
网络爬虫,java语言写的,爬不到正确的网页源码,百思不得其解,不知问题症结在哪里?求助爬虫前辈们
aabbccli 的回答 2017/01/08 13:25
最佳答案
应该是页面需要JS渲染才能正常获取,可以用SELENIUM + PHANTOMJS来获取试试,最好贴出你要爬的网址,让同学们帮你瞅瞅
2
回答
webmagic request设置POST方法报NullPointerException!

public class MaxSpider implements PageProcessor { private static Site site=...

2016/12/19 21:47
1
回答
有关webmagic的一个疑惑

@黄亿华 你好,想跟你请教个问题: 经朋友介绍,刚刚接触您的webmagic爬虫,觉得真是很棒,可对使用手册里的例子爬虫的这行代码不是很懂,您方便给解释下...

2016/12/09 16:01
1
回答
请教下如何使用proxypool,读取的proxy文件应该是什么格式

请问我应该以什么格式设置代理文件呢?谢谢

2016/02/14 10:44

没有更多内容

加载失败,请刷新页面