Scrapy 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
Scrapy 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
Scrapy 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 BSD
开发语言 Python 查看源码 »
操作系统 跨平台
软件类型 开源软件
所属分类 应用工具网络爬虫
开源组织
地区 不详
投 递 者 红薯
适用人群 未知
收录时间 2011-01-12

软件简介

Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便~

示例代码:

$pip install scrapy
$cat > myspider.py <<EOF
import scrapy

class BlogSpider(scrapy.Spider):
    name = 'blogspider'
    start_urls = ['https://blog.scrapinghub.com']

    def parse(self, response):
        for title in response.css('h2.entry-title'):
            yield {'title': title.css('a ::text').extract_first()}

        next_page = response.css('div.prev-post > a ::attr(href)').extract_first()
        if next_page:
            yield scrapy.Request(response.urljoin(next_page), callback=self.parse)
EOF
$scrapy runspider myspider.py
展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击加入讨论🔥(3)
发表了资讯
10/20 07:03

Scrapy 2.7.0 发布,Python 爬虫框架

Scrapy 是一套纯 Python 实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。它也可以用于广泛的目的,从数据挖掘、监控到自动测试等。 v2.7.0 更新内容如下 添加了 Python 3.11 支持,删除了 Python 3.6 支持 改进了对异步回调的支持 新项目默认启用Asyncio 支持 项目字段的输出名称现在可以是任意字符串 现在可以进行集中式请求指纹配置 一些依赖项的最低要求版本也发生了变...

0
7
发表了资讯
03/03 07:41

Scrapy 2.6.0 & 2.6.1 发布,Python 爬虫框架

Scrapy 是一套基于 Twisted 的异步处理框架,纯 Python 实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。它也可以用于广泛的目的,从数据挖掘、监控到自动测试等。 v2.6.0 更新内容如下: cookie handling 的安全修复(详见下文) Python 3.10 支持 asyncio 支持不再被认为是实验性的,并且无论你的 Python 版本如何,都可以在 Windows 上开箱即用 Feed 导出现在支持pathl...

1
5
2021/04/08 07:01

Scrapy 2.5.0 发布,Python 爬虫框架

Scrapy 是一套基于 Twisted 的异步处理框架,纯 Python 实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。它也可以用于广泛的目的,从数据挖掘、监控到自动测试等。 Scrapy 2.5.0 正式发布,本次更新内容如下: 官方 Python 3.9 支持; 实验性的 HTTP/2 支持; 新增 get_retry_request() 函数,用于重试来自 spider 回调的请求; 新的 headers_received 信号允许提前停止下...

0
7
发表了资讯
2020/08/05 07:20

Scrapy 2.3.0 发布,Python 爬虫框架

Scrapy 2.3.0 发布了。Scrapy 是一套基于 Twisted 的异步处理框架,纯 Python 实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。 此版本主要更新亮点包括: Feed 导出现在支持 Google Cloud Storage 作为存储后端 新的 FEED_EXPORT_BATCH_ITEM_COUNT 设置允许分批交付输出条目,最多不超过指定数量的条目 条目加载程序的基本实现已移至单独的库 itemloaders,从而允许从 Sc...

2
4
发表了资讯
2020/06/25 07:11

Scrapy 2.2.0 发布,Python 爬虫框架

Scrapy 2.2.0 发布了。Scrapy 是一套基于 Twisted 的异步处理框架,纯 Python 实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。 此版本主要更新亮点包括: 要求 Python 3.5.2+ 数据类对象和属性对象现在是有效的项目类型 新的 TextResponse.json 方法 新的 bytes_received 信号允许允许取消响应下载 CookiesMiddleware 修复 详情查看更新说明: https://github.com/scrap...

0
7
发表了资讯
2020/03/05 07:43

Scrapy 2.0.0 发布,Python 爬虫框架

Scrapy 2.0.0 发布了。Scrapy 是一套基于 Twisted 的异步处理框架,纯 Python 实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。 此版本主要更新亮点包括: 不再支持 Python 2 部分协程语法支持和实验性异步支持 新的 Response.follow_all 方法 FTP 对媒体管道的支持 新的 Response.certificate 属性 通过 DNS_RESOLVER 的 IPv6 支持 更新说明: https://github.com/scrap...

1
7
发表了资讯
2019/07/28 07:05

Scrapy 1.7.0 发布,Python 爬虫框架

Scrapy 1.7.0 发布了。Scrapy 是一套基于 Twisted 的异步处理框架,纯 Python 实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。 此版本主要更新亮点包括: 改进多个域的抓取 更简洁的将参数传递给回调函数的方法 JSON 请求新类 改进基于规则的爬虫 feed export 的新特性 详情查看更新说明: https://github.com/scrapy/scrapy/releases/tag/1.7.0...

3
22
发表了资讯
2019/02/02 06:56

Scrapy 1.6.0 发布,Web 爬虫框架

Scrapy 1.6.0 发布了,Scrapy 是一套基于 Twisted 的异步处理框架,纯 Python 实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。 主要更新内容有: 更好的 Windows 支持; 兼容 Python 3.7; 文档更新,包括了从 .extract_first() + .extract() API 到 .get() + .getall() API 的转移;; feed exports,FilePipeline 和 MediaPipeline 性能提升; 更好的可扩展性,包括 it...

2
13
发表了资讯
2017/12/30 07:38

Scrapy 1.5.0 发布,Web 爬虫框架

Scrapy 1.5.0 发布了,Scrapy 是一套基于 Twisted 的异步处理框架,纯 Python 实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。 更新内容: 在调用Feed导出存储之前,URI会被重新设置。 避免在项目加载器中缺少基本项目字段 添加测试报告给Travis 修复#3034,CSV在Windows上导出不必要的空行问题 完整更新内容请查看发行说明。 下载地址: Source code (zip) Source cod...

2
19
发表了资讯
2017/05/19 07:59

Scrapy 1.4.0 发布,Web 爬虫框架

Scrapy 1.4.0 发布了,Scrapy 是一套基于 Twisted 的异步处理框架,纯 Python 实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。 Scrapy 1.4 没有带来许多令人惊叹的新功能,但进行了相当多的方便的改进。 Scrapy 现在通过新的 :setting:`FTP_USER` 和 :setting:`FTP_PASSWORD` 设置,支持使用可自定义的用户和密码进行匿名 FTP 会话。 如果使用 Twisted 17.1.0 或更高版本...

2
39
发表了资讯
2017/03/11 06:57

Scrapy 1.3.3 发布,Web 爬虫框架

Scrapy 1.3.3 发布了,Scrapy 是一套基于基于 Twisted 的异步处理框架,纯 Python 实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。 本次更新主要是 bug 修复,详情如下: Bug 修复 使 SpiderLoader 再次提高 ImportError 缺省的依赖和错误:设置:`SPIDER_MODULES`。这些异常从 1.3.0 开始作为警告已停止。如果需要,引入新的设置以在警告或异常之间切换,详情请查看 sett...

2
38
发表了资讯
2017/03/04 07:27

Scrapy 1.2.3,1.1.4 和 1.0.7 发布,web 爬虫框架

Scrapy 1.2.3,1.1.4 和 1.0.7 发布了。Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。 此更新版本暂未提供更新内容,你可查看发行页保持关注。 下载地址: https://github.com/scrapy/scrapy/releases/tag/1.2.3 https://github.com/scrapy/scrapy/releases/tag/1.1.4 https://github.com/scrapy/scrapy/release...

2
30
发表了资讯
2017/02/14 07:29

Scrapy 1.3.2 发布,web 爬虫框架

Scrapy 1.3.2 发布了。Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。 更新如下: Bug 修复 Preserve crequest class when converting to/from dicts (utils.reqser) (issue 2510). Use consistent selectors for author field in tutorial (issue 2551). Fix TLS compatibility in Twisted 17+ (issue 2558) 您可...

4
38
发表了资讯
2017/02/09 07:10

Scrapy 1.3.1 发布,web 爬虫框架

Scrapy 1.3.1 发布了。 Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。 该版本暂未提供更新内容,提交记录如下: 当 to/from dicts 转换时保留请求类 从 elacuesta / reqser_request_class 合并拉取请求#2510 下载地址: Source code (zip) Source code (tar.gz)...

5
25
发表了资讯
2016/12/22 07:48

Scrapy 1.3.0 发布,web 爬虫框架

Scrapy 1.3.0 发布了。 Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。 该版本暂未提供更新内容,您可点击此处查看改进情况。 下载地址: Source code (zip) Source code (tar.gz)

2
55
发表了资讯
2016/12/07 08:22

Scrapy 1.2.2 发布,Web 爬虫框架

Scrapy 1.2.2 发布了。 Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。 更新内容: Bug 修复 Fix a cryptic traceback when a pipeline fails on open_spider() (issue 2011) Fix embedded IPython shell variables (fixing issue 396 that re-appeared in 1.2.0, fixed in issue 2418) A couple of patches when ...

5
41
发表了资讯
2016/10/22 00:00

Scrapy 1.2.1 发布,web 爬虫框架

Scrapy 1.2.1 发布了。 Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。 更新内容: 新功能 New FEED_EXPORT_ENCODING setting to customize the encoding used when writing items to a file. This can be used to turn off \uXXXX escapes in JSON output. This is also useful for those wanting something else...

0
26
发表了资讯
2016/10/04 00:00

Scrapy 1.2.0 发布,web 爬虫框架

Scrapy 1.2.0 发布了。 Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。 更新内容: 新特性 New FEED_EXPORT_ENCODING setting to customize the encoding used when writing items to a file. This can be used to turn off \uXXXX escapes in JSON output. This is also useful for those wanting something else...

8
44
发表了资讯
2016/09/23 00:00

Scrapy 1.1.3 发布,web 爬虫框架

Scrapy 1.1.3 发布了,Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。 暂无相关改进记录,持续关注,可点击这里。或查看提交记录,了解更多信息。 下载地址: http://scrapy.org/download/ Source code (zip) Source code (tar.gz)...

2
40
2016/08/19 00:00

Scrapy 1.1.2 发布,web 爬虫框架

Scrapy 1.1.2 发布了,Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。 暂无相关改进记录,持续关注,可点击这里。或查看提交记录,了解更多信息。 下载地址:http://scrapy.org/download/

1
32
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
3 评论
504 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部