Spiderman

软件主页
关注
Spiderman - 又一个Java网络蜘蛛/爬虫 Spiderman 是一个基于微内核+插件式架构的网络蜘蛛,它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的...
加载中
5
回答
Spiderman2 如何使用

如图所示 Spiderman2需要的mvn已经搞好 Spiderman2的文件夹中已经执行 mvn install命令 但是现在我对于Spiderman2...

2017/03/28 15:24
2
回答
如何设置网络代理,进行爬取

@自风 你好,想跟你请教个问题:公司上网都是需要通过http代理,问一下spiderman如何设置代理进行爬取网页。

2013/11/08 09:27
9
回答
关于网络爬虫spiderman的一些问题
自风 的回答 2013/01/25 17:16
最佳答案
1.在你的xml配置文件里面把入口url和target的url都设定为这个页面url,注意target的url规则是equal而不是regex 2.你这种属于一个html页面抓取多个model数据的情况,这里给给你写个解析上述页面那些列表标题和url的例子: <target name="new...
2
回答
spiderman2执行.bat成功,使用eclipse却出现下面报错

@自风 想请教一下,这是什么情况? Results : Tests run: 0, Failures: 0, Errors: 0, Skipped: 0 ...

2016/04/27 20:49
1
回答
真心请各位用过spiderman的好汉进来一下

学生一枚,对编程一窍不通,想用spiderman学一下抓取数据,现在环境搭建好了,可是抓取步骤毫无头绪,所有在oschina上的和spiderman相关的...

2016/04/29 13:56
2
回答
spiderman抓取百度搜索出的新闻

@自风 你好,想跟你请教个问题: 我现在想通过spiderman抓取百度搜索出的所有网页内容,分别贴出xml和debug <?xml version="1...

2013/12/13 10:06
1
回答
spiderman there is no website to fetch

@自风 运行sample出现下面问题,要怎么解决了 [DEBUG] 2015-11-28 13:09:43 [config] ~ (EWeb4JConfi...

2015/11/28 13:36
2
回答
Spiderman 进不了onParse

@自风 你好,想跟你请教个问题: 你好,我现在已经配置好,可以跑起来了,但是用例子里面的list-paging-oschina.xml,enable已经设...

2015/10/28 11:58
1
回答
Site[oschina] loading plugins fail

@自风 你好,想跟你请教个问题: 使用下载的源码编译,跑下面这个配置文件,是从你的文档里面拷贝的,但是报Site[oschina] loading plu...

2015/10/27 17:01
2
回答
spiderman想抓取分页页面列表的信息,而不是进入每个列表后页面的具体信息,怎么配置xml?(我只要列表中的主要信息,没必要进入页面的的具体信息)

@自风 你好,想跟你请教个问题: spiderman想抓取分页页面列表的信息,而不是进入每个列表后页面的具体信息,怎么配置xml?(我只要列表中的主要信息...

2015/06/06 14:23
1
回答
@自风 你好 ,Spiderman种子链接规则设置

@自风 你好,想跟你请教个问题: 关于种子链接的问题,是不是设置成网站的一个主页【如:http://www.sina.com.cn/】只要在设置 <tar...

2015/06/05 10:03
2
回答
Spiderman爬虫

@自风 你好,想跟你请教个问题:我有这么一个场景 我要爬去一个列表页面 有分页的(下一页),列表里面有个详情页面 我要的数据是(列表页面中的A字段 和详情...

2015/05/20 00:02
4
回答
@自风 Spiderman爬虫遇到问题【抓取批量数据】

<?xml version="1.0" encoding="UTF-8"?> <!-- | Spiderman Java开源垂直网络爬虫 | a...

2015/06/01 20:47
1
回答
spiderman的爬取流程xml配置不包含嵌套

@自风 你好,想跟你请教个问题: 访问了您提供的spiderman的文档 http://git.oschina.net/l-weiwei/spiderma...

2015/02/15 10:16
1
回答
配置出错,xpath 抓取为空

@自风 你好,想跟你请教个问题:对于那种有二级域名或者有防爬和不在同一主机的怎么爬去新闻比如 http://roll.finance.sina.com.c...

2014/11/05 14:32
2
回答
href中有javascript代码该如何分析?

请问在 <parser xpath="//a[text()='下一页']" attribute="href" /> 的结果里包含javascript的代码...

2014/12/09 11:30
3
回答
ecplise运行spiderman时遇到个问题,请教一下?

@自风 你好,想跟你请教个问题:[ERROR] Failed to execute goal on project spiderman-sample: M...

2014/09/25 09:30
1
回答
spiderman是否支持定时二次抓取功能?

@自风 你好,想跟你请教个问题:最近在看spiderman的源码,突发奇想——对一个站点内一篇文章在抓取后被修改更新了,那么如何利用spiderman对被...

2013/12/10 15:27
1
回答
spiderman如何运行

@自风 你好,想跟你请教个问题: spiderman究竟要怎么运行它啊。能不能详细的介绍下呢。完全没头绪。

2014/05/27 10:57
2
回答
Spiderman 能抓取这样的列表吗

@自风 你好,想跟你请教个问题: 像这个网页中ajax的列表能抓取吗?这个是异步生成的列表。 http://www.dpm.org.cn/shtml/11...

2014/03/18 12:11

没有更多内容

加载失败,请刷新页面

返回顶部
顶部