scrapy 递归只抓取了第一个页面疑问(10行代码)

balasihome 发布于 2015/06/08 16:42
阅读 984
收藏 0
start_urls访问的是一个json接口,从里面分离出URL后,遍历所有URL,并输出当前Response的url。

但调试结果发现只输出了一个URL,是递归参数出现问题了吗?


#!/usr/bin/env python
# encoding: utf-8
import json
from scrapy.spider import BaseSpider
from scrapy.http import Request

class SoufangSpider(BaseSpider):
    name = 'soufang2'
    allowed_domains = ['jingyelidu.fang.com']
    start_urls = ['http://newhouse.gz.fang.com/house/s/?x1=111.168964&x2=115.446336&y1=21.921421&y2=24.307946&strDistrict=&strRoundStation=&railway=&strPurpose=&strPrice=&strHuxing=&saling=&strStartDate=&isyouhui=&strOrderBy=&strKeyword=&railway_station=&strComarea=&housetag=&strSort=mobileyh&a=ajaxXfMapSearch&city=gz&PageNo=1']

    def parse_detail(self, response):
        print response.url

    def parse(self, response):
        response_data = json.loads(response.body)
        #遍历所有URL并解析
        for houses in response_data['list']:
            yield Request(url=houses['houseurl'], callback=self.parse_detail)



加载中
返回顶部
顶部