请教一下webmagic 4.0 后方法 pipeline废弃了,现在用哪个方法阿?

hqcheng 发布于 2013/11/14 10:32
阅读 1K+
收藏 0

@黄亿华 你好,想跟你请教个问题:

    /**
     * add a pipeline for Spider
     *
     * @param pipeline
     * @return this
     * @see #setPipeline(us.codecraft.webmagic.pipeline.Pipeline)
     * @deprecated
     */
    public Spider pipeline(Pipeline pipeline) {
        return addPipeline(pipeline);
    }

看源码没看到方法 setPipeline,是否直接用 addPipeline?

加载中
0
黄亿华
黄亿华
注释写错了...改成了addPipeline了...我改掉去
黄亿华
黄亿华
回复 @hqcheng : 你说的对,因为可以详细定义抓取哪类URL,很少用全站爬虫,所以默认是自己参考robots而不是程序识别。 如果要实现全站爬虫,可以这么做:首先访问根路径下的robots.txt,拿到Allow和Disallow列表,然后在scheduler里添加一个URL过滤就行了,再启动Spider就行了。
h
hqcheng
顺便问一下,作为蜘蛛爬虫,应该遵守 Robots协议,现在程序好像没做什么处理吧,如果我要遵守这协议要怎么做,貌似没看到有例子。
0
返回顶部
顶部