使用CrawlSpider无法获取到rules中匹配的链接

XueChenLuo 发布于 2014/06/15 03:04
阅读 1K+
收藏 1

写过一次相关的代码,之后遗失了,今天重新再写之后,response.url之后就一直是显示start_url,却无法显示按照rules在页面上获取的链接地址,试了很多办法,都找不出原因,麻烦高手解答啊!很困恼。。。非常感谢!!!

from scrapy.selector import HtmlXPathSelector

from scrapy.http import Request
from kiva.items import KivaItem
from scrapy.conf import settings
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
 
 
class BusSpider(CrawlSpider):
    name = "kiva1"
    allowed_domains=["www.kiva.org"]
    start_urls = ["http://www.kiva.org/teams?queryString=&category=all&membershipType=all&startDate=&endDate=&userId=&sortBy=overallLoanedAmount&pageID=%2" ]
    rules=[Rule(SgmlLinkExtractor(allow=("www.kiva.org/team/\w+",)),callback="parse",follow=True),]

    def parse(self, response):
        cat_urls = response.url
        print cat_urls
加载中
0
fkkeee
fkkeee
rules 把中括号改成小括号试试。
XueChenLuo
XueChenLuo
修改了~~还是没效果。。。已经试过各种写法。。。不知道怎么办了。。。
0
10000011
10000011

你debug下 看看rule是否解析出 a href 

0
涛声依旧cz
涛声依旧cz

你好,我在导入CrawlSpider的时候,出现了这样的错误

Module `scrapy.contrib.spiders` is deprecated

怎么解决啊?

返回顶部
顶部