Crawlee 是一个由 Apify 开发的网络抓取和浏览器自动化库。它能帮助你构建可靠的爬虫,速度快。
Crawlee 涵盖了端到端的爬行和抓取。为用户提供了在网络上抓取链接、抓取数据并将其存储到磁盘或云的工具,同时保持可配置以满足用户的项目需求。
Crawlee以crawlee
NPM 软件包的形式提供。
特点
- 用于 HTTP 和 headless 浏览器抓取的单一接口
- 用于抓取 URL 的持久队列(广度和深度优先)
- 可插拔式存储表格数据和文件
- 利用可用系统资源自动扩展
- 集成代理轮换和会话管理
- 可通过 hooks 自定义生命周期
- 通过 CLI 来 bootstrap 你的项目
- 可配置的路由、错误处理和重试
- Dockerfiles准备部署
- 使用带有泛型的 TypeScript 编写
HTTP crawling
- 零配置 HTTP2 支持,甚至支持代理服务器
- 自动生成 browser-like headers
- 浏览器 TLS fingerprints 的复制
- 集成快速 HTML 解析器。Cheerio 和 JSDOM
- 也可以抓取 JSON API
Real browser crawling
- JavaScript渲染和屏幕截图
- Headless 和 headful 支持
- 零配置生成 human-like fingerprints
- 自动浏览器管理
- 在同一界面上使用 Playwright 和 Puppeteer
- 支持 Chrome、Firefox、Webkit 和许多其他浏览器
评论