@自风 你好 ,Spiderman种子链接规则设置

迷途者 发布于 2015/06/05 10:03
阅读 201
收藏 0

@自风 你好,想跟你请教个问题:

关于种子链接的问题,是不是设置成网站的一个主页【如:http://www.sina.com.cn/】只要在设置  <targets-> rule就可以遍历到这个网站下的所有网页呢?

查找规则跟链接层级有关系吗?

加载中
0
自风
自风
是的,可以遍历到所有网页,但是默认下,有些网页是不会去download内容的

1. 跟种子链接不是同一个host的(这时候如果配置了validHost就可以支持多个host的download)

2. 不符合你配置的sourceRules的

你如果想遍历所有网页,从上面入手:
1. sourceRules配置成匹配所有(比如type="regex" value=".*") 

返回顶部
顶部