加载中

fq - 二进制数据解析工具

fq 是一个用于检查二进制数据的工具和解析器。 在大多数情况下,fq 的工作方式与 jq 相同,但它不是读取 JSON,而是读取二进制数据。结果是一个 JSON 兼容的结构,其中每个值都有一个位...

收藏 0

Debezium - 变更数据捕获平台

Debezium 是一个为捕获数据更改 (Change Data Capture, CDC) 提供低延迟的流式处理平台,利用 Kafka 和 Kafka Connect 实现了持久性、可靠性和容...

收藏 0

Dlink - 交互式的 FlinkSQL Studio

实时即未来,Dlink 为 Apache Flink 而生,让 Flink SQL 纵享丝滑。 它是一个交互式的 FlinkSQL Studio,可以在线开发、补全、校验 、执行、预览 Flin...

收藏 18
更新于 2022/01/16

Apache SeaTunnel - 高性能分布式数据集成平台

seatunnel 是一个非常易用的支持海量数据实时同步的超高性能分布式数据集成平台,每天可以稳定高效同步数百亿数据,已在近百家公司生产上使用。 为什么我们需要 seatunnel seatun...

收藏 20
更新于 2022/01/10
Apache SeaTunnel

Flink Remote Shuffle - Flink 任务间数据交换

Flink Remote Shuffle 是一种批场景下利用外部服务完成任务间数据交换的 Shuffle 实现,本文后续将详细介绍 Flink Remote Shuffle 研发的背景,以及 F...

收藏 3

Gamestonk Terminal - Python 投资研究工具

Gamestonk Terminal 是一个股票和加密市场的投资研究终端,为投资研究提供了一个基于 Python 的现代集成环境,允许交易者使用最先进的数据科学和机器学习技术。 作为一个现代的基...

收藏 1
Gamestonk Terminal

Dagster - 数据编排器

Dagster 是一个用于机器学习、分析和 ETL 的数据编排器。 Dagster 让你以可重复使用的逻辑组件之间的数据流来定义管道,然后在本地测试并在任何地方运行。通过对管道和它们产生的资产的...

收藏 2
Dagster

Big Data Sampling Under Chi-square - 基于卡方检验的大数据抽样工具

基于卡方检验的大数据抽样工具 介绍 抽样是数据科学中的基本方法之一。它可以降低数据规模并简化计算。本工具包给出一种保持分布不变性的抽样工具,使得即使在小样本数据量下也不会影响这些数据分析模型的准...

收藏 2

Hadoop-PDL - 基于组合设计工具 PBD 的数据布局 PDL

该项目提出了一种有效的基于组合设计工具 PBD (Pairwise Block Design) 的数据布局 PDL,以加快混合 EC 分布式存储系统中单节点故障的数据修复。 由于减少了机架间的通...

收藏 3

CacheLib - 可插入的进程内缓存引擎

CacheLib 是用于扩展高性能缓存服务的可插拔缓存引擎,其包含一个 C++ 库,提供进程内高性能缓存机制。并提供了一个线程安全的 API 来构建高吞吐量、低开销的缓存服务,同时并具有透明地利...

收藏 1
更新于 2021/09/03
CacheLib

OpenMetadata - 元数据开放标准

OpenMetadata 是元数据的开放标准,发现、协作和正确获取数据的单一场所。 OpenMetadata 包括以下内容: 元数据模式- 定义元数据的核心抽象和词汇表,其中包含类型、实体、实体...

收藏 12
OpenMetadata

Databend - 现代实时数据处理和分析 DBMS

Databend 是一个具有云原生架构的现代实时数据处理和分析 DBMS,旨在简化数据云。 Principles Fearless 没有数据竞争,没有不安全,最大限度地减少未处理的错误 高性能 ...

收藏 11
Databend

Tuplex - 基于 Python 的并行大数据处理框架

Tuplex 是一个并行的大数据处理框架,它以编译代码的速度运行用 Python 编写的数据科学管道。Tuplex 具有与Apache Spark或Dask类似的 Python API ,但与调...

收藏 7

iceoryx - 低延迟进程间通信中间件

iceoryx 是一个适用于各种操作系统的进程间通信(IPC)中间件(目前已支持 Linux、macOS 和 QNX)。它起源于汽车行业,当涉及到驾驶辅助或自动驾驶系统时,大量的数据必须在不同的...

收藏 21
更新于 2021/06/29
iceoryx

ZNBase - NewSQL 分布式数据库

ZNBase 是浪潮打造的一款分布式数据库产品,具备强一致、高可用分布式架构、分布式水平扩展、高性能、企业级安全等特性,自研的原生分布式存储引擎支持完整 ACID,支持 PostgreSQL 协...

收藏 52
更新于 2021/08/16
ZNBase
开源软件作者
IE-MANAGER 作者
flexDate 作者
BG-UI 作者

UMAD-SZU - 大数据管理分析系统

UMAD (Universal Management and Analysis of Data) 是致力于实现通用的大数据管理分析系统的项目。该项目利用度量空间的高度抽象性的特点,将各种各样的数...

收藏 19

HStreamDB - EMQ 流数据库

HStreamDB 是一款专为流式数据设计的, 针对大规模实时数据流的接入、存储、处理、分发等环节进行全生命周期管理的流数据库。 它使用标准 SQL (及其流式拓展)作为主要接口语言,以实时性作...

收藏 72
更新于 2021/11/25
HStreamDB

Apache Daffodil - DFDL 1.0 规范的开源实现

Apache Daffodil 是 DFDL 规范的开源实现,该规范使用 DFDL 数据描述将固定格式的数据解析为信息集。通常将此信息集转换为 XML 或 JSON,以允许通过公认的 XML 或...

收藏 9
更新于 2021/04/12

HUAWEI Analytics Kit - 华为分析服务示例

这是华为分析服务(HUAWEI Analytics Kit)与app集成的示例代码,可实现对分析服务开放能力的API调用,其演示了如何通过收集预定义事件和自定义事件以提高用户参与度和用户偏好。 ...

收藏 13
更新于 2021/09/06

Apache DataSketches - 开源的高性能大数据流算法库

Apache DataSketches 是开源的高性能大数据流算法库,主要针对大规模计算环境。Apache DataSketches 的专用流算法库(也被称为 sketches)包含小型数据结构...

收藏 11
更新于 2021/02/05

没有更多内容

加载失败,请刷新页面

返回顶部
顶部