Crawlee 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
Crawlee 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
Crawlee 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 Apache-2.0
开发语言 TypeScript
操作系统 跨平台
软件类型 开源软件
所属分类 应用工具网络爬虫
开源组织
地区 不详
投 递 者 白开水不加糖
适用人群 未知
收录时间 2023-11-24

软件简介

Crawlee 是一个由 Apify 开发的网络抓取和浏览器自动化库。它能帮助你构建可靠的爬虫,速度快。

Crawlee 涵盖了端到端的爬行和抓取。为用户提供了在网络上抓取链接、抓取数据并将其存储到磁盘或云的工具,同时保持可配置以满足用户的项目需求。

Crawlee以crawlee NPM 软件包的形式提供。

特点

  • 用于 HTTP 和 headless 浏览器抓取的单一接口
  • 用于抓取 URL 的持久队列(广度和深度优先)
  • 可插拔式存储表格数据和文件
  • 利用可用系统资源自动扩展
  • 集成代理轮换和会话管理
  • 可通过 hooks 自定义生命周期
  • 通过 CLI 来 bootstrap 你的项目
  • 可配置的路由、错误处理和重试
  • Dockerfiles准备部署
  • 使用带有泛型的 TypeScript 编写

HTTP crawling

  • 零配置 HTTP2 支持,甚至支持代理服务器
  • 自动生成 browser-like headers
  • 浏览器 TLS fingerprints 的复制
  • 集成快速 HTML 解析器。Cheerio 和 JSDOM
  • 也可以抓取 JSON API

Real browser crawling

  • JavaScript渲染和屏幕截图
  • Headless 和 headful 支持
  • 零配置生成 human-like fingerprints
  • 自动浏览器管理
  • 在同一界面上使用 Playwright 和 Puppeteer
  • 支持 Chrome、Firefox、Webkit 和许多其他浏览器
展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击引领话题📣 发布并加入讨论🔥
暂无内容
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
0 评论
5 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部