加载中

Flink Remote Shuffle - Flink 任务间数据交换

Flink Remote Shuffle 是一种批场景下利用外部服务完成任务间数据交换的 Shuffle 实现,本文后续将详细介绍 Flink Remote Shuffle 研发的背景,以及 F...

收藏 1

Gamestonk Terminal - Python 投资研究工具

Gamestonk Terminal 是一个股票和加密市场的投资研究终端,为投资研究提供了一个基于 Python 的现代集成环境,允许交易者使用最先进的数据科学和机器学习技术。 作为一个现代的基...

收藏 0
Gamestonk Terminal

Dagster - 数据编排器

Dagster 是一个用于机器学习、分析和 ETL 的数据编排器。 Dagster 让你以可重复使用的逻辑组件之间的数据流来定义管道,然后在本地测试并在任何地方运行。通过对管道和它们产生的资产的...

收藏 2
Dagster

Big Data Sampling Under Chi-square - 基于卡方检验的大数据抽样工具

基于卡方检验的大数据抽样工具 介绍 抽样是数据科学中的基本方法之一。它可以降低数据规模并简化计算。本工具包给出一种保持分布不变性的抽样工具,使得即使在小样本数据量下也不会影响这些数据分析模型的准...

收藏 2

Hadoop-PDL - 基于组合设计工具 PBD 的数据布局 PDL

该项目提出了一种有效的基于组合设计工具 PBD (Pairwise Block Design) 的数据布局 PDL,以加快混合 EC 分布式存储系统中单节点故障的数据修复。 由于减少了机架间的通...

收藏 3

CacheLib - 可插入的进程内缓存引擎

CacheLib 是用于扩展高性能缓存服务的可插拔缓存引擎,其包含一个 C++ 库,提供进程内高性能缓存机制。并提供了一个线程安全的 API 来构建高吞吐量、低开销的缓存服务,同时并具有透明地利...

收藏 1
更新于 2021/09/03
CacheLib

OpenMetadata - 元数据开放标准

OpenMetadata 是元数据的开放标准,发现、协作和正确获取数据的单一场所。 OpenMetadata 包括以下内容: 元数据模式- 定义元数据的核心抽象和词汇表,其中包含类型、实体、实体...

收藏 11
OpenMetadata

Datafuse - 现代实时数据处理和分析 DBMS

Datafuse 是一个具有云原生架构的现代实时数据处理和分析 DBMS,旨在简化数据云。 Principles Fearless 没有数据竞争,没有不安全,最大限度地减少未处理的错误 高性能 ...

收藏 10

Tuplex - 基于 Python 的并行大数据处理框架

Tuplex 是一个并行的大数据处理框架,它以编译代码的速度运行用 Python 编写的数据科学管道。Tuplex 具有与Apache Spark或Dask类似的 Python API ,但与调...

收藏 5

iceoryx - 低延迟进程间通信中间件

iceoryx 是一个适用于各种操作系统的进程间通信(IPC)中间件(目前已支持 Linux、macOS 和 QNX)。它起源于汽车行业,当涉及到驾驶辅助或自动驾驶系统时,大量的数据必须在不同的...

收藏 21
更新于 2021/06/29
iceoryx

ZNBase - NewSQL 分布式数据库

ZNBase 是浪潮打造的一款分布式数据库产品,具备强一致、高可用分布式架构、分布式水平扩展、高性能、企业级安全等特性,自研的原生分布式存储引擎支持完整 ACID,支持 PostgreSQL 协...

收藏 48
更新于 2021/08/16
ZNBase

UMAD-SZU - 大数据管理分析系统

UMAD (Universal Management and Analysis of Data) 是致力于实现通用的大数据管理分析系统的项目。该项目利用度量空间的高度抽象性的特点,将各种各样的数...

收藏 16

HStreamDB - EMQ 流数据库

HStreamDB 是一款专为流式数据设计的, 针对大规模实时数据流的接入、存储、处理、分发等环节进行全生命周期管理的流数据库。 它使用标准 SQL (及其流式拓展)作为主要接口语言,以实时性作...

收藏 68
更新于 2021/11/25
HStreamDB

Apache Daffodil - DFDL 1.0 规范的开源实现

Apache Daffodil 是 DFDL 规范的开源实现,该规范使用 DFDL 数据描述将固定格式的数据解析为信息集。通常将此信息集转换为 XML 或 JSON,以允许通过公认的 XML 或...

收藏 9
更新于 2021/04/12

HUAWEI Analytics Kit - 华为分析服务示例

这是华为分析服务(HUAWEI Analytics Kit)与app集成的示例代码,可实现对分析服务开放能力的API调用,其演示了如何通过收集预定义事件和自定义事件以提高用户参与度和用户偏好。 ...

收藏 13
更新于 2021/09/06
开源软件作者
CHMWriter 作者
node-weixin-menu 作者
redbbs 作者

Apache DataSketches - 开源的高性能大数据流算法库

Apache DataSketches 是开源的高性能大数据流算法库,主要针对大规模计算环境。Apache DataSketches 的专用流算法库(也被称为 sketches)包含小型数据结构...

收藏 11
更新于 2021/02/05

Txtai - 人工智能驱动的搜索引擎

Txtai 是一个人工智能驱动的搜索引擎,可以在文本的各个部分上建立了一个 AI 驱动的索引。 txtai 支持构建文本索引以执行相似性搜索并创建基于问-答的系统。此外,txtai 还具有用于 ...

收藏 43
更新于 2021/11/25
Txtai

PDCache - Java 数据缓存工具

PDCache 是一个轻量级,高可靠性,强一致性,基于 java 内部 Reference 工具的数据缓存工具,用于在程序内部缓存可丢失型的数据。也可用 Map 实现的根据 id 保存的数据或可...

收藏 2

Qualitis - 数据质量管理平台

Qualitis 是一个支持多种异构数据源的质量校验、通知、管理服务的数据质量管理平台,用于解决业务系统运行、数据中心建设及数据治理过程中的各种数据质量问题。 Qualitis 基于 Sprin...

收藏 22
更新于 2020/12/28

OSSEAN - 全球开源软件实时分析监测系统

OSSEAN是一个全球开源软件实时分析监测系统,通过对全球主流开源社区进行持续数据实时采集和跨社区深度关联分析,提供开源项目检索、评估和排行等服务。开发单位为国防科技大学。 特性 社区覆盖面广 ...

收藏 7
OSSEAN

没有更多内容

加载失败,请刷新页面

返回顶部
顶部