Scrapy-Python 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
Scrapy-Python 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
授权协议 Apache
开发语言 Python
操作系统 跨平台
软件类型 开源软件
所属分类 应用工具网络爬虫
开发厂商
地区 国产
提 交 者 蓝黑色时代
适用人群 未知
收录时间 2017-10-18

软件简介

scrapy

Scrapy:Python的爬虫框架

实例Demo

抓取:汽车之家、瓜子、链家 等数据信息

版本+环境库

Python2.7 + Scrapy1.12

初窥Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。

应用

生成带 json的数据文件 $ scrapy crawl car -o Trunks.json

直接执行 $ scrapy crawl car

查看多少爬虫 $ scrapy list

其最初是为了 网络抓取 所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据。虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间。Scrapy是一个使用Python编写的,轻量级的,简单轻巧,并且使用起来非常的方便。

Scrapy主要包括了以下组件:

引擎,用来处理整个系统的数据流处理,触发事务。 调度器,用来接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回。 下载器,用于下载网页内容,并将网页内容返回给蜘蛛。 蜘蛛,蜘蛛是主要干活的,用它来制订特定域名或网页的解析规则。 项目管道,负责处理有蜘蛛从网页中抽取的项目,他的主要任务是清晰、验证和存储数据。当页面被蜘蛛解析后,将被发送到项目管道,并经过几个特定的次序处理数据。 下载器中间件,位于Scrapy引擎和下载器之间的钩子框架,主要是处理Scrapy引擎与下载器之间的请求及响应。 蜘蛛中间件,介于Scrapy引擎和蜘蛛之间的钩子框架,主要工作是处理蜘蛛的响应输入和请求输出。 调度中间件,介于Scrapy引擎和调度之间的中间件,从Scrapy引擎发送到调度的请求和响应。 使用Scrapy可以很方便的完成网上数据的采集工作,它为我们完成了大量的工作,而不需要自己费大力气去开发。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (4)

加载中
《Python 3网络爬虫开发实战》中文PDF+源代码 中文PDF,606页,带目录和书签,文字可以复制粘贴。 配套源代码。 网络爬虫经典书籍。 资料下载:https://pan.baidu.com/s/1rRfnILg8FB5F2I1E_oy1AQ
2019/03/10 09:02
回复
举报
找不到了
08/28 16:36
回复
举报
不在码云上啊?
2017/11/04 14:43
回复
举报
蓝黑色时代软件作者
打分: 力荐
开源中国的第一个开源项目,谢谢
2017/11/04 14:37
回复
举报
更多评论
暂无内容
发表了博客
2015/03/14 19:58

python & scrapy

python & scrapy

0
0
发表了博客
2019/09/25 10:51

Python Scrapy 实战

Python Scrapy 什么是爬虫? 网络爬虫(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。 Python 爬虫 在爬虫领域,Python几乎是霸主地位,将网络一切数据作为资源,通过自动化程序进行有针对性的数据采集以及处理。从事该领域应学习爬虫策略、高性能异...

0
0
发表了博客
2019/09/25 10:51

Python Scrapy 实战

# Python Scrapy ## 什么是爬虫? 网络爬虫(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。 ## Python 爬虫 在爬虫领域,Python几乎是霸主地...

0
0
发表了博客
2019/12/15 08:58

Python之Scrapy安装

Scrapy框架是目前Python中最受欢迎的爬虫框架之一,所以今天就来具体了解一下Scrapy框架。 什么是Scrapy框架? Scrapy是一个快速、高层次、轻量级的屏幕抓取和web抓取的python爬虫框架 Scrapy的用途: Scrapy用途非常广泛,主要用于抓取特定web站点的信息并从中提取特定结构的数据,除此之外,还可用于数据挖掘、监测、自动化...

0
0
发表了博客
05/26 00:00

Python|什么是Scrapy

欢迎点击「算法与编程之美」↑关注我们! 本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章。 欢迎加入团队圈子!与作者面对面!直接点击! 一、Scrapy框架简介 Scrapy是用纯Python实现...

0
0
发表了博客
2019/03/09 16:18

Python Scrapy 框架

Python 爬虫框架介绍 Windows 下安装 Scrapy Linux 下安装 Scrapy Scrapy 目录结构 Scrapy 常用命令 Scrapy 编写 Items Scrapy 编写 Spider Scrapy 类参数传递 1. 爬虫框架介绍 什么是爬虫框架:在前面的学习中,我们的爬虫项目都是一步一步手动写出来的,相对来说会慢一些,如果有一套开发相对完备的框架,那么写少量代...

0
0
发表于数据库专区
07/09 12:01

Python下安装Scrapy

Python下安装Scrapy 依次 执行如下命令: pip install wheel pip install lxml pip install pyOpenSSL pip install D:\Twisted-17.9.0-cp36-cp36m-win32.whl pip install pywin32 pip install Scrapy 在Windows平台上安装scrapy,直接采用pip install Scrapy基本上不能成功。因为首先要安装几个依赖包。 首先...

0
0
发表了博客
07/30 07:34

Python 爬虫之Scrapy《上》

1 什么是Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 2 工作流程是怎么样的 下图是从网络上找的一张Scrapy的工作...

0
0
发表了博客
06/25 12:41

python scrapy 爬虫

代码运行来了python scrapy框架,搭建一个完整爬虫工程架构,不只是一个py文件。 建议在linux运行 参考: https://www.jianshu.com/p/0c0759bc3d27

0
0
发表了博客
2018/05/20 15:23

Python3安装Scrapy

Microsoft Visual C++ Build Tools   最近项目在写爬虫,项目经理给了个Python Scrapy的爬虫项目,要求使用Java实现相关功能。于是乎在本地先后安装了Python3和Scrapy,在安装Scrapy时出现了个小插曲,现在总结如下:   第一、安装Scrapy   查看网上安装scrapy,网友基本就是告诉你使用命令: pip install scrapy...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了问答
2019/09/04 19:32

scrapy xpath 中我想知道这个href怎么定位

3
0
发表了问答
2019/05/12 17:06

利用python做一个关于300个地级市政府网站应急预案信息的爬虫

需要做我国近300个地级市关于政府应急预案的爬虫,考虑了利用selenium调用网站搜索框,网站全爬和google site: 三个方法,但是最主要问题就是这些政府网站具体的页面代码设计根本没有规律,所以selenium失败,google搜索出来的东西感觉不全,所以在考虑网站全爬然后进行信息筛选,但是因为第一次做这个,也没找到相关教...

1
0
发表于AI & 大数据专区
2018/08/05 21:46

scrapy爬取百度图片时,出现jsondecodeerror

我按照网上的教程,在scrapy shell中进行调试。 scrapy shell http://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=皇马&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=&word=皇马&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=&fr=&pn=120&rn=30&gsm=78&153...

1
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
4 评论
49 收藏
分享
返回顶部
顶部