加载中

Debezium - 变更数据捕获平台

Debezium 是一个为捕获数据更改 (Change Data Capture, CDC) 提供低延迟的流式处理平台,利用 Kafka 和 Kafka Connect 实现了持久性、可靠性和容...

收藏 4

Dlink - 交互式的 FlinkSQL Studio

实时即未来,Dlink 为 Apache Flink 而生,让 Flink SQL 纵享丝滑,并致力于实时计算平台建设。 Dinky 基于 Apache Flink 实现 Dlink ,增强 F...

收藏 37
更新于 2022/07/24

Apache SeaTunnel - 高性能分布式数据集成平台

seatunnel 是一个非常易用的支持海量数据实时同步的超高性能分布式数据集成平台,每天可以稳定高效同步数百亿数据,已在近百家公司生产上使用。 为什么我们需要 seatunnel seatun...

收藏 45
更新于 2022/01/24
Apache SeaTunnel

Flink Remote Shuffle - Flink 任务间数据交换

Flink Remote Shuffle 是一种批场景下利用外部服务完成任务间数据交换的 Shuffle 实现,本文后续将详细介绍 Flink Remote Shuffle 研发的背景,以及 F...

收藏 4

Hadoop-PDL - 基于组合设计工具 PBD 的数据布局 PDL

该项目提出了一种有效的基于组合设计工具 PBD (Pairwise Block Design) 的数据布局 PDL,以加快混合 EC 分布式存储系统中单节点故障的数据修复。 由于减少了机架间的通...

收藏 3

OpenMetadata - 元数据开放标准

OpenMetadata 是元数据的开放标准,发现、协作和正确获取数据的单一场所。 OpenMetadata 包括以下内容: 元数据模式- 定义元数据的核心抽象和词汇表,其中包含类型、实体、实体...

收藏 16
OpenMetadata

UMAD-SZU - 大数据管理分析系统

UMAD (Universal Management and Analysis of Data) 是致力于实现通用的大数据管理分析系统的项目。该项目利用度量空间的高度抽象性的特点,将各种各样的数...

收藏 22

HUAWEI Analytics Kit - 华为分析服务示例

这是华为分析服务(HUAWEI Analytics Kit)与app集成的示例代码,可实现对分析服务开放能力的API调用,其演示了如何通过收集预定义事件和自定义事件以提高用户参与度和用户偏好。 ...

收藏 13
更新于 2021/09/06

Apache DataSketches - 开源的高性能大数据流算法库

Apache DataSketches 是开源的高性能大数据流算法库,主要针对大规模计算环境。Apache DataSketches 的专用流算法库(也被称为 sketches)包含小型数据结构...

收藏 11
更新于 2021/02/05

Qualitis - 数据质量管理平台

Qualitis 是一个支持多种异构数据源的质量校验、通知、管理服务的数据质量管理平台,用于解决业务系统运行、数据中心建设及数据治理过程中的各种数据质量问题。 Qualitis 基于 Sprin...

收藏 34
更新于 2022/07/12

OSSEAN - 全球开源软件实时分析监测系统

OSSEAN是一个全球开源软件实时分析监测系统,通过对全球主流开源社区进行持续数据实时采集和跨社区深度关联分析,提供开源项目检索、评估和排行等服务。开发单位为国防科技大学。 特性 社区覆盖面广 ...

收藏 9
OSSEAN

Men-COOPER - 构建软件开发者知识图谱

COOPER 平台通过分析软件开发者大数据对开发者进行全方位画像和协作关系分析,并构建软件开发者知识图谱,在此基础上提供开发者和开发资源的智能搜索与推荐服务。 平台详细描述: COOPER 平台...

收藏 9
Men-COOPER

Pulsar-Flink Connector - 允许 Flink 向 Pulsar 读写数据

Apache Pulsar 是 Apache 软件基金会顶级项目,是下一代云原生分布式消息流平台,集消息、存储、轻量化函数式计算为一体,采用计算与存储分离架构设计,支持多租户、持久化存储、多机房...

收藏 4
更新于 2020/12/29

openLooKeng - 高性能数据虚拟化引擎

openLooKeng 是一款高性能数据虚拟化引擎,提供统一 SQL 接口,具备跨数据源/数据中心分析能力以及面向交互式、批、流等融合查询场景。同时增强了前置调度、跨源索引、动态过滤、跨源协同、...

收藏 127
更新于 2022/01/29
openLooKeng

elasticsearch-datatran - Elasticsearch 高效数据同步工具

bboss-datatran由 bboss 开源的数据采集同步ETL工具,提供数据采集、数据清洗转换处理和数据入库功能。 bboss-datatran 的独特之处,其数据同步作业采用java语言...

收藏 171
更新于 2022/08/01
开源软件作者
acg-faka 作者
Piano-MIDI 作者
MuYuCMS 作者

Rope - 轻量级 ETL 工具

Rope 是一款轻量级别的 ETL (Extract-Transform-Load) 工具。主要用于从不同源获取/接受数据,然后统一处理数据后,写入到各种目标源;系统采用多级缓冲和数据缓存,每秒...

收藏 57
更新于 2020/03/16

Apache IoTDB - 时序数据管理引擎

IoTDB是针对时间序列数据收集、存储与分析一体化的数据管理引擎。它具有体量轻、性能高、易使用的特点,完美对接Hadoop与Spark生态,适用于工业物联网应用中海量时间序列数据高速写入和复杂分...

收藏 416
更新于 2022/04/04
Apache IoTDB

Linkis - 计算中间件

Linkis 在上层应用程序和底层引擎之间构建了一层计算中间件。通过使用Linkis 提供的REST/WebSocket/JDBC 等标准接口,上层应用可以方便地连接访问MySQL/Spark/...

收藏 452
更新于 2022/07/12
Linkis

Brooklin - 近实时大规模数据流式传输

Brooklin 是一种近实时的大规模数据流分布式服务,LinkedIn 自 2016 年以来一直在使用这项服务,支撑每天数千个数据流和超过 2 万亿条消息。 为什么要开发 Brooklin? ...

收藏 55

PiFlow - 大数据流水线系统

PiFlow 是一个基于分布式计算框架Spark开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件,以所见即所得方式进行流水线配置。简单易用,功能强大。它具有如下特...

收藏 202
更新于 2022/07/27
PiFlow

没有更多内容

加载失败,请刷新页面

返回顶部
顶部