加载中

Typical - 与代数数据类型的数据交换

Typical 是一个数据序列化框架。你在一个叫做 schema 的文件中定义数据类型,然后 Typical 为各种语言生成高效的序列化和反序列化代码。生成的代码可用于服务之间的消息编排,将结构...

收藏 2

CloudCanalProcess - CloudCanal SDK 数据处理器

CloudCanal Data Process 是一款针对 CloudCanal SDK 的开源数据处理器,原生官方 SDK 只有一些说明文档。 本项目是由官方人员发起并与社区共同推进的自定义代...

收藏 2

YTsaurus - Yandex 开源大数据平台

YTsaurus 是一个分布式存储和处理大数据的平台,支持 MapReduce 模型,带有一个分布式文件系统和一个 NoSQL 键值数据库。 平台优势: 多租户生态 一套相互关联的子系统:Map...

收藏 6
更新于 2023/03/26
YTsaurus

dynamicgo - 高性能动态化 Go 数据处理

dynamicgo 是字节自研的一套能动态处理 RPC 数据(不需要代码生成)同时保证高性能的 Go 基础库,旨在减少序列化/反序列化过程。 dynamicgo 的核心设计思想是:基于 原始字节...

收藏 2

Wasm-bpf - WebAssembly eBPF 库和运行时

Wasm-bpf 是一个 WebAssembly eBPF 库和运行时, 基于 CO-RE(一次编写 – 到处运行) libbpf 和 wasm-micro-runtime 实现。 Wasm 最...

收藏 10
更新于 2023/03/10

DataCap - 数据转换/集成/可视化

DataCap是数据转换、集成和可视化的集成软件。支持各种数据源,如MySQL,ClickHouse,PostgreSQL,Apache Druid等. 官网地址:https://datacap...

收藏 45
更新于 2023/05/31

Arctic - 流式湖仓服务

Arctic 是由网易开源的流式湖仓系统,Arctic 在 Iceberg 和 Hive 之上添加了更多实时场景的能力,并且面向 DataOps 提供流批统一,开箱即用的元数据服务,让数据湖更加...

收藏 19
更新于 2022/11/13

Amundsen - 数据发现和元数据引擎

Amundsen 是一个数据发现和元数据引擎,用于提高数据分析师、数据科学家和工程师在与数据交互时的工作效率。 它通过索引数据资源(表、仪表板、流等)和基于使用模式(例如,查询次数多的表比次数少...

收藏 5
Amundsen

Datashim - 数据集处理框架

Datrashim 是一个 Kubernetes 框架,它支持在 pod 中轻松访问 S3 和 NFS 数据集,以协调每个数据集所需的持久卷声明和 ConfigMap 的配置。 Datashim...

收藏 2

fq - 二进制数据解析工具

fq 是一个用于检查二进制数据的工具和解析器。 在大多数情况下,fq 的工作方式与 jq 相同,但它不是读取 JSON,而是读取二进制数据。结果是一个 JSON 兼容的结构,其中每个值都有一个位...

收藏 29
更新于 2022/05/09

Debezium - 变更数据捕获平台

Debezium 是一个为捕获数据更改 (Change Data Capture, CDC) 提供低延迟的流式处理平台,利用 Kafka 和 Kafka Connect 实现了持久性、可靠性和容...

收藏 5

Dlink - 交互式的 FlinkSQL Studio

实时即未来,Dlink 为 Apache Flink 而生,让 Flink SQL 纵享丝滑,并致力于实时计算平台建设。 Dinky 基于 Apache Flink 实现 Dlink ,增强 F...

收藏 35
更新于 2022/07/24

Apache SeaTunnel - 高性能分布式数据集成平台

SeaTunnel 是一个非常易用的支持海量数据快速同步的云原生数据集成平台,每天可以稳定高效同步千亿级数据,已在字节、B站、微博、腾讯云及印度电信等数百家公司生产上使用,目前也已经支持过百种数...

收藏 75
更新于 2023/06/01
Apache SeaTunnel

Flink Remote Shuffle - Flink 任务间数据交换

Flink Remote Shuffle 是一种批场景下利用外部服务完成任务间数据交换的 Shuffle 实现,本文后续将详细介绍 Flink Remote Shuffle 研发的背景,以及 F...

收藏 4

Gamestonk Terminal - Python 投资研究工具

Gamestonk Terminal 是一个股票和加密市场的投资研究终端,为投资研究提供了一个基于 Python 的现代集成环境,允许交易者使用最先进的数据科学和机器学习技术。 作为一个现代的基...

收藏 6
Gamestonk Terminal
开源软件作者
KUI for React 作者
Jimmer 作者
godoc 作者

Dagster - 数据编排器

Dagster 是一个用于机器学习、分析和 ETL 的数据编排器。 Dagster 让你以可重复使用的逻辑组件之间的数据流来定义管道,然后在本地测试并在任何地方运行。通过对管道和它们产生的资产的...

收藏 4
Dagster

Big Data Sampling Under Chi-square - 基于卡方检验的大数据抽样工具

基于卡方检验的大数据抽样工具 介绍 抽样是数据科学中的基本方法之一。它可以降低数据规模并简化计算。本工具包给出一种保持分布不变性的抽样工具,使得即使在小样本数据量下也不会影响这些数据分析模型的准...

收藏 2

Hadoop-PDL - 基于组合设计工具 PBD 的数据布局 PDL

该项目提出了一种有效的基于组合设计工具 PBD (Pairwise Block Design) 的数据布局 PDL,以加快混合 EC 分布式存储系统中单节点故障的数据修复。 由于减少了机架间的通...

收藏 3

CacheLib - 可插入的进程内缓存引擎

CacheLib 是用于扩展高性能缓存服务的可插拔缓存引擎,其包含一个 C++ 库,提供进程内高性能缓存机制。并提供了一个线程安全的 API 来构建高吞吐量、低开销的缓存服务,同时并具有透明地利...

收藏 3
更新于 2021/09/03
CacheLib

OpenMetadata - 元数据开放标准

OpenMetadata 是元数据的开放标准,发现、协作和正确获取数据的单一场所。 OpenMetadata 包括以下内容: 元数据模式- 定义元数据的核心抽象和词汇表,其中包含类型、实体、实体...

收藏 16
OpenMetadata

没有更多内容

加载失败,请刷新页面

返回顶部
顶部