Scrapy

软件主页
关注
Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方...
加载中
22
回答
关于爬取没有设置robots.txt的网站的法律风险

如果要爬取的网站上没有设置robots.txt,那么是不是代表默认都允许爬取呢?有没有法律风险呢?

07/10 08:40
4
回答
python xpath 如何过滤div中的script和style标签

爬取一个页面中的div,想获取div中的文字,我是这么写的: selector.xpath('//div[@class="text-con"]').xpa...

2017/06/30 15:32
3
回答
scrapy如何正确的处理cookie?

试着写一个spider 爬一个论坛(dz7.2),目标板块是要求登录了,目标站是cookie来验证身份的。我模拟登录了,登录成功后,在访问目标板块的时候,...

2013/11/16 22:55
7
回答
关于爬虫如何突破网站对爬虫的限制

现在,我正在做一个网站爬虫,但是应该是被一个网站视为攻击了吧!我用浏览器访问这个网站,显示正常,但是程序访问,返回的是电信的那个域名错误;为了躲过限制: ...

2013/04/01 14:31
4
回答
爬取京东的网站: 'Response' object has no attribute 'body_as_unicode'

rt,使用scrapy shell测试语句:scrapy shell "http://list.jd.com/list.html?cat=670,671,...

2014/07/31 10:17
1
回答
Scrapy:在pipeline的process_item中的一个并发/线程安全方面的问题

如,一个将数据保存到excel文件的管道类,作为一个通用类,不写死Item类的判断过程,用dict来map类名和文件的关系, outputs = {‘AA...

2019/02/10 17:35
2
回答
scrapy怎么多次向一个url请求信息,然后获取返回数据

大家好,我刚开始学习使用scrapy,希望能请教一个问题。 这是我的spiders文件夹中爬虫文件的代码 class PabhSpider(CrawlSp...

2014/11/04 21:52
4
回答
关于python获取请求后的XHR数据

本人正在爬取一个网站,输入网站地址后返回的是异步的ajax请求, 我想获取所有的这些xhr以及它们的Form Data 请问有没有办法呢。困扰一天了 不知...

2018/08/29 22:49
4
回答
python scrapy 多个不同的页面数据组合,管道被调用多次,导致字典报错keyerror的问题

爬虫源码 def parse(self, response): data = json.loads(response.text)['result'...

2018/07/24 15:29
2
回答
scrapy 自动抓取下一页的链接

我想要爬取搜狐新闻 网址是: http://news.sohu.com/guoneixinwen.shtml 有很多页需要爬取,按以往的一些网站,源码会在...

2015/08/17 21:04
1
回答
scrapy动态的从redis队列中获取源,并启动spider

需求:有个redis队列,我需要从队列中获取数据(源相关的配置规则),然后加入到scrapy的spider中,并启动。 目前的解决方法: 开启了个守护线程...

2018/01/16 10:25
1
回答
求助 scrapy 调试时可以看到数据爬去成功,但是命令行csv文件导出为空

python3.6 scrapy 1.4.0 断点调试时可以看到数据,但是命令行导出csv文件为空。 spider文件: import scrapy im...

2017/09/02 09:03
1
回答
scrapy 模拟登录知乎遇到验证码不通过的问题

# -*- coding: utf-8 -*- import scrapy from scrapy.shell import inspect_respon...

2017/07/17 17:47
3
回答
scrapy爬取list页面下级详细页的翻页,及mysql相关

问题描述: 想抓取某类列表页中的新闻详细页,其中遇见有的新闻详细页有翻页,就是一长篇文章用分页来隔开,有的则没有。而我想储存的mysql每行字段格式如下:...

2016/05/09 19:17
1
回答
在scrapy+redis实现分布式爬虫中,如何实现对各个分布的爬虫获取URL的均衡

我在用scrapy+redis实现一个简单的分布式爬虫,但运行后,一个爬虫爬地快,一个爬虫 爬地慢,我想请教各位如何实现redis对各个爬虫获取URL速度...

1
回答
scrapy 下载百度新闻图片错误
huangxiaowei 的回答 2017/07/13 15:32
最佳答案
这个问题解决了,分析浏览器请求,发现header里面都是设置了referer的,在pipeline 里request的时间,加上header.referer 即可。 HTTP Referer是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器我是从...
1
回答
python Scrapy同一个站点如何登录多个账号

登录部分代码如下:     def start_requests(self,user,passw): yield scrapy.F...

2017/06/29 08:27
1
回答
scrapy知乎模拟登录失败

下面的代码模拟登录知乎,在登录的时候没有成功 check_login提示失败: check_login { "r": 1, "errcode": 1991...

2017/06/26 17:24
5
回答

没有更多内容

加载失败,请刷新页面

返回顶部
顶部