Scrapy

软件主页
关注
Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方...
加载中
1
回答
Scrapy:在pipeline的process_item中的一个并发/线程安全方面的问题

如,一个将数据保存到excel文件的管道类,作为一个通用类,不写死Item类的判断过程,用dict来map类名和文件的关系, outputs = {‘AA...

02/10 17:35
2
回答
scrapy怎么多次向一个url请求信息,然后获取返回数据

大家好,我刚开始学习使用scrapy,希望能请教一个问题。 这是我的spiders文件夹中爬虫文件的代码 class PabhSpider(CrawlSp...

2014/11/04 21:52
4
回答
关于python获取请求后的XHR数据

本人正在爬取一个网站,输入网站地址后返回的是异步的ajax请求, 我想获取所有的这些xhr以及它们的Form Data 请问有没有办法呢。困扰一天了 不知...

2018/08/29 22:49
4
回答
python scrapy 多个不同的页面数据组合,管道被调用多次,导致字典报错keyerror的问题

爬虫源码 def parse(self, response): data = json.loads(response.text)['result'...

2018/07/24 15:29
2
回答
scrapy 自动抓取下一页的链接

我想要爬取搜狐新闻 网址是: http://news.sohu.com/guoneixinwen.shtml 有很多页需要爬取,按以往的一些网站,源码会在...

2015/08/17 21:04
1
回答
scrapy动态的从redis队列中获取源,并启动spider

需求:有个redis队列,我需要从队列中获取数据(源相关的配置规则),然后加入到scrapy的spider中,并启动。 目前的解决方法: 开启了个守护线程...

2018/01/16 10:25
1
回答
求助 scrapy 调试时可以看到数据爬去成功,但是命令行csv文件导出为空

python3.6 scrapy 1.4.0 断点调试时可以看到数据,但是命令行导出csv文件为空。 spider文件: import scrapy im...

2017/09/02 09:03
1
回答
scrapy 模拟登录知乎遇到验证码不通过的问题

# -*- coding: utf-8 -*- import scrapy from scrapy.shell import inspect_respon...

2017/07/17 17:47
3
回答
scrapy爬取list页面下级详细页的翻页,及mysql相关

问题描述: 想抓取某类列表页中的新闻详细页,其中遇见有的新闻详细页有翻页,就是一长篇文章用分页来隔开,有的则没有。而我想储存的mysql每行字段格式如下:...

2016/05/09 19:17
1
回答
在scrapy+redis实现分布式爬虫中,如何实现对各个分布的爬虫获取URL的均衡

我在用scrapy+redis实现一个简单的分布式爬虫,但运行后,一个爬虫爬地快,一个爬虫 爬地慢,我想请教各位如何实现redis对各个爬虫获取URL速度...

1
回答
scrapy 下载百度新闻图片错误
huangxiaowei 的回答 2017/07/13 15:32
最佳答案
这个问题解决了,分析浏览器请求,发现header里面都是设置了referer的,在pipeline 里request的时间,加上header.referer 即可。 HTTP Referer是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器我是从...
3
回答
python xpath 如何过滤div中的script和style标签

爬取一个页面中的div,想获取div中的文字,我是这么写的: selector.xpath('//div[@class="text-con"]').xpa...

2017/06/30 15:32
1
回答
python Scrapy同一个站点如何登录多个账号

登录部分代码如下:     def start_requests(self,user,passw): yield scrapy.F...

2017/06/29 08:27
1
回答
scrapy知乎模拟登录失败

下面的代码模拟登录知乎,在登录的时候没有成功 check_login提示失败: check_login { "r": 1, "errcode": 1991...

2017/06/26 17:24
5
回答
3
回答
scrapy 抓取网页初始url怎么确定

http://zf.zjjs.com.cn/ysxm.jspx 以上是要抓取数据的网址,欲实现的功能是抓取表格数据存入数据库,一开始就遇到问题了,不知道拿...

2017/06/01 16:09
1
回答
scrapy数据导入mysql问题
200p 的回答 2017/05/31 11:19
最佳答案
def setmodule(self, module, priority='project'): """ Store settings from a module with a given priority. This is a helper function that calls :meth...
1
回答
scrapy获取不到response , 这可能是特例吗?

想做一个从百度云获取数据的爬虫选用scrapy框架 版本为python3.6 scrapy1.3.3 pycharm2017 但爬到这个链接的时候无论如何...

2017/05/11 17:10
1
回答
为什么在scrapy 的settings.py里启用了: USER_AGENT 就什么也采不到了? 一关了就能采集到网页

采集的百度贴吧 python 2.7.11 scrapy 1.3.3 只要是在settings.py里启用了user_agent,不管用下面的哪种方法.都...

2017/05/11 12:21
2
回答
python scrapy 采集百度贴吧入库mysql后。入库数据是混乱的,有什么办法可以按百度贴吧发贴时间入库不?

python scrapy 采集百度贴吧入库mysql后。入库数据是混乱的,有什么办法可以按百度贴吧发贴时间入库不? 如图: 后面的这一列时间。是我采集的...

2017/04/30 12:57

没有更多内容

加载失败,请刷新页面

返回顶部
顶部