0
回答
Scrapy的CrawlSpider,使用它爬取Sina粉丝信息,遇到问题
注册华为云得mate10,2.9折抢先购!>>>   

使用Scray的CrawlSpider类爬取Sina用的第一页粉丝信息,因为该类可以方便的直接提取网页中你指定的链接进行下一步的爬取,所以选择它进行爬取,但是出现了一个问题。

    我要爬取用户的粉丝信息的话,需要从他的主页比如weibo.com/u/xxxxxxxxxxx,先跳到

    他的粉丝页面,也就是weibo.com/u/xxxxxxxxxx/follow?relate=fans,然后再该页上,有他的具体粉丝信息,对页面进行分析提取。然后从他的粉丝再往下爬取,比如选择粉丝一的话,那就是又进入到weibo.com/u/xxxxxxxxxxx,然后再跟进到/follow?relate=fans,但是这样如果用Spider的话比较简单,如果用CrawlSpider的话,它就自动根据你的规则进行爬取了。

    那么请问,我的Rule怎么写呢?我目前这样写的,但是感觉是错,当然结果也确实是错的。。。

    求大神赐教:

    

Rule(LinkExtractor(allow=r'^http:\/\/(www\.)?weibo.com/[a-z]/[1-9]\d*\?refer_flag=.*'), #主页
             process_request='process_request', 
             follow=True
             ), 
        Rule(LinkExtractor(allow=r'^http:\/\/(www\.)?weibo.com/[a-z]/[1-9]\d*/follow\?relate=fans.*'),#粉丝页面  
             process_request='process_request',
             callback='parse_item', 
             follow=True
             ),



举报
WildBr
发帖于2年前 0回/271阅
顶部