加载中

http-proxy-pool - 网站代理工具

http-proxy-pool 是一个流量代理工具。 对于代理地址,期望是越多越好,但是对于代理质量有着更高的要求,宁缺勿滥,因此proxy-pool不再将抓取到的代理地址保存至数据库,而调整为...

收藏 15

wind-bell - 轻量级的爬虫工具

wind-bell 风铃虫是一款轻量级的爬虫工具,似风铃一样灵敏,如蜘蛛一般敏捷,能感知任何细小的风吹草动,轻松抓取互联网上的内容。它是一款对目标服务器相对友好的蜘蛛程序,内置了二十余种常见或不...

收藏 61
更新于 2019/12/30

Dodder - 分布式 DHT 网络爬虫

________ _________________ ___ __ \___________ /_____ /____________ __ / / / __ \ __...

收藏 12

GNE-JS - 新闻网页正文通用抽取器

GNE-JS 是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。 在论文中描述的正文提取基础上,还增加了标题、发布时间和文章作者的自动化探测与提取功能。 该项目启发...

收藏 11

GNE - 新闻网页正文通用抽取器

GNE 是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。 在论文中描述的正文提取基础上,还增加了标题、发布时间和文章作者的自动化探测与提取功能。 最后的输出效果如...

收藏 147
更新于 2019/09/27

spider-flow - 爬虫平台

介绍 spider-flow,新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。 特性 支持 css 选择器、正则提取 支持 JSON/XML 格式 支持 Xpath/JsonPa...

收藏 297
更新于 2019/12/26
spider-flow

Crawlab - 分布式爬虫管理平台

Crawlab 是一个使用 Golang 开发的分布式爬虫管理平台,支持Python、NodeJS、Go、Java、PHP等多种编程语言以及多种爬虫框架。 安装 三种方式: Docker(推荐)...

收藏 340
更新于 2020/02/24

Blog-Hunter - 基于 webMagic 的博客爬取工具

Blog-Hunter(博客猎手),基于 webMagic 的博客爬取工具,支持慕课、csdn、iteye、cnblogs、掘金和 V2EX 等各大主流博客平台。 主要功能 多个平台:该项目内置...

收藏 18
Blog-Hunter

jfinal_jsoup_meinvtu - JFinal+JSoup 开发的爬虫

去年,做了几个JFinal项目,大量使用了Java爬虫去全网抓取数据,清洗筛选后入库,成为本地结构化数据。 Java中JSOUP做HTML解析是最好的工具,没有之一。 之前听过一句话,大体意思就...

收藏 25

Botsonar Openresty Lua - 智能反爬虫 Lua 插件

简介 Botsonar 一款企业使用的反爬虫管理平台。该平台集爬虫发现,策略,防御,流量分析于一体,目前处于 Alpha 测试版本,开源测试版本为旁路分析模式。 站点概览 防御和威胁分类 攻击 ...

收藏 14

Scrapyd - 运行 Scrapy 爬虫的守护进程

Scrapyd 是一个部署和运行 Scrapy 爬虫的应用,它允许使用 HTTP JSON API 部署 Scrapy 项目并控制其爬虫。

收藏 2

gugu - 金融/投资领域数据分析及量化工具

gugu(股估) gugu(股估)是适用于金融/投资领域数据分析及量化工程的开源项目,通过对互联网上的公开数据进行采集、清洗和存储,完成了对股票/债券/基金等金融数据的统一调用和分析。其优点是速...

收藏 32

GoldDataSpider - 网页数据抽取工具

GoldDataSpider 是用于抓取网页和抽取数据的工具。其核心代码是从金色数据抓取融合平台分离而来。 该项目提供抓取和抽取来自网页数据,不仅可以抽取网页内的内容,还能抽取URL、HTTP报...

收藏 111
更新于 2019/03/18

cetty - 基于事件分发的爬虫框架

一个轻量级的基于事件分发的爬虫框架。 功能介绍 基于完全自定义事件处理机制的爬虫框架。 模块化的设计,提供强大的可扩展性。 基于HttpClient支持同步和异步数据抓取。 支持多线程。 基于J...

收藏 11

AntNest - 简明飞快的异步爬虫框架

AntNest 简明飞快的异步爬虫框架(python3.6+),只有600行左右的代码 功能 开箱即用的HTTP客户端 提供Item extractor, 可以明确地声明如何从response解...

收藏 94
更新于 2019/02/16
开源软件作者
Hello你好啊
GalleryFinal 作者
阿面
XMUI 作者
红色shi头
PhotoSelect 作者

WebCollector-Python - 基于 Python 的开源网络爬虫框架

WebCollector-Python WebCollector-Python 是一个无须配置、便于二次开发的 Python 爬虫框架(内核),它提供精简的的 API,只需少量代码即可实现一个功...

收藏 102
更新于 2019/02/12

Ferret - 声明式 Web 爬虫系统

Ferret 是一个声明式的 Web 爬虫系统,旨在简化网络上的数据提取,以用于 UI 测试、机器学习和分析等等。 Ferret 拥有自己的声明式语言,通过抽象出技术细节和底层技术的复杂性,从而...

收藏 47
更新于 2018/10/11

AiPa - Java 多线程爬虫框架

一款小巧、灵活的Java多线程爬虫框架(AiPa) 1.框架简介 AiPa 是一款小巧,灵活,扩展性高的多线程爬虫框架。 AiPa 依赖当下最简单的HTML解析器Jsoup。 AiPa 只需要使...

收藏 84
更新于 2018/10/05

CrawlerForReader - Android 本地网络小说爬虫

CrawlerForReader Android 本地网络小说爬虫,基于 jsoup 与 xpath,通过模版解析网页。 支持书源 模版示例 调用方式 ScreenShot 支持书源 /** ...

收藏 24

grab_huaban_board - 花瓣网下载工具

grab_huaban_board 花瓣网下载工具是一个用户脚本,用来批量抓取花瓣网用户画板的高清原图,支持PC与Mobile,并可以选择通过不同方式下载到本地。 解析 查看analyze.tx...

收藏 7

没有更多内容

加载失败,请刷新页面

返回顶部
顶部