加载中

ScrapeGraphAI - 基于 AI 的 Python 抓取器

ScrapeGraphAI 是一个网络爬虫 Python 库,使用大型语言模型和直接图逻辑为网站和本地文档(XML,HTML,JSON 等)创建爬取管道。 快速安装 Scrapegraph-ai...

收藏 0
ScrapeGraphAI

Crawl4AI - 开源 LLM 友好的网络爬虫和抓取器

Crawl4AI 是一款功能丰富的爬虫和抓取工具。提供速度极快、支持 AI 的网页爬取功能,专为 LLM、AI 代理和数据管道量身定制。Crawl4AI 开源、灵活且专为实时性能而构建,可为开发...

收藏 1

Scrapling - Python 爬虫库

Scrapling 是一款 Python 网页爬虫库,具有闪电般快速、智能且难以被检测的特点。 特性 提供快速且隐蔽的 HTTP 请求 自适应网站变化,智能追踪元素 性能卓越,比 Beautif...

收藏 1

Firecrawl - 网页抓取工具

将整个网站转换为 LLM 可用的 markdown 或结构化数据。使用单个 API 进行抓取、抓取和提取。 Firecrawl 是一种 API 服务,它获取 URL、对其进行抓取并将其转换为干净...

收藏 0
Firecrawl

Wiseflow - 基于大模型的信息挖掘工具

首席情报官(Wiseflow)是一个敏捷的信息挖掘工具,可以从网站、微信公众号、社交平台等各种信息源中按设定的关注点提炼讯息,自动做标签归类并上传数据库。 功能特色 原生 LLM 应用:精心选择...

收藏 6

Crawlee - 爬虫工具

Crawlee 是一个由 Apify 开发的网络抓取和浏览器自动化库。它能帮助你构建可靠的爬虫,速度快。 Crawlee 涵盖了端到端的爬行和抓取。为用户提供了在网络上抓取链接、抓取数据并将其存...

收藏 6
Crawlee

FEAPDER - Python 爬虫框架

feapder[ˈfiːpdə]是一款上手简单,功能强大的 Python 爬虫框架,内置AirSpider、Spider、TaskSpider、BatchSpider四种爬虫解决不同场景的需求。...

收藏 9

Benny-Scraper - 网络小说和漫画抓取工具

Benny-Scraper 是一款网络小说和漫画抓取工具。可让用户在一个文件中离线存储其喜爱的漫画或网络小说的所有章节。将网络小说存储为 Epub,将漫画存储为 PDF。 目标是使用 Benny...

收藏 9

EasySpider - 可视化爬虫软件

EasySpider是一款完全免费和开源的可视化爬虫软件,此软件可以让大家使用图形化界面,无代码可视化的设计和执行爬虫任务。 只需要在网页上选择自己想要爬的内容并根据提示框操作即可完成爬虫设计和...

收藏 133

Maigret - 社交网络帐号爬虫

Maigret 是一个基于用户 ID 爬取其在互联网上相关帐号的爬虫。它通过用户名收集对应帐号的档案,在大量的网站上检查此帐号,并从网页上收集所有可用的信息,不需要 API 密钥。 Maigre...

收藏 25
更新于 2022/10/23
Maigret

depth-crawler-python - 三级页面定向爬取

depth-crawler 是一个三级页面定向爬取工具。 功能 1.在python中运用scrapy框架定向爬取至三级页面,保存html页面内容与链接为xlsx表格 2.将xlsx表格内容存至e...

收藏 9

WebCrawler - 网站数据采集工具

WebCrawler 是一个网站数据采集工具,使用 scrapy 框架。 环境准备 [Scrapy] (http://scrapy.org/) [MongoDB] (https://www.mo...

收藏 15

Sherlock Social - 社交网络帐号爬虫

Sherlock 是一款网络爬虫工具,可根据输入的用户名爬取对应的社交帐号,目前支持 300 多个不同社交平台。 用法 $ python3 sherlock --help usage: s...

收藏 64
更新于 2024/02/19
Sherlock Social

lightcrawler - 轻型爬虫

lightcrawler 可以抓取网站并通过 Google lighthouse 运行网站。 npm install --save-dev lightcrawler lightcrawler ...

收藏 4

AppCrawler - 基于 Appium 的 App 自动遍历工具

AppCrawler 是一个基于自动遍历的 App 爬虫工具。支持 Android 和 iOS,支持真机和模拟器。最大的特点是灵活性,可通过配置来设定遍历的规则。 为什么做这个工具 各大云市场上...

收藏 11
开源软件作者
OSChina Notifier 作者
BonHumeur 作者
phppoem 作者

Spider Admin Pro - Scrapy 可视化管理和定时调度

Spider Admin Pro Github: https://github.com/mouday/spider-admin-pro Gitee: https://gitee.com/moud...

收藏 18

Asyncpy - 异步请求框架

Asyncpy 是基于 asyncio 和 aiohttp 开发的一个轻便高效的爬虫框架,采用了 scrapy 的设计模式,参考了 github 上一些开源框架的处理逻辑。 更多详细内容可参考d...

收藏 6

ListPage - 列表页爬虫

ListPage 是专门用于爬取或操作列表式网页的页面类,基于 DrissionPage。页面类抽象了列表式页面基本特征,封装了常用方法。 只需少量设置即可进行爬取或页面操作,实现可复用、可扩展...

收藏 8

INFO-SPIDER - 爬虫工具箱

INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。并提供数据分析功能,基于用户数据生成图表文件,使得用户更直观、深入了解...

收藏 112
更新于 2020/09/13
INFO-SPIDER

Crawlab Lite - 爬虫管理平台

Crawlab 的轻量版本,基于 Golang 的爬虫管理平台,支持任意语言编写的爬虫。 相比较 Crawlab,该版本专注于单机上的爬虫管理,平台运行不依赖任何的外部数据库,去除了大量非必要功...

收藏 42
更新于 2020/07/15

没有更多内容

加载失败,请刷新页面

返回顶部
顶部