Vespa - 开放大数据服务引擎

Vespa 是雅虎开源的针对大数据集的低延迟计算引擎。它存储和索引数据,以便在服务时间对数据进行查询、选择和处理。 Vespa 可实现: 使用类似 sql 的查询和非结构化搜索来选择内容 组织所...

收藏 10
Vespa

Qualitis - 数据质量管理平台

Qualitis 是一个支持多种异构数据源的质量校验、通知、管理服务的数据质量管理平台,用于解决业务系统运行、数据中心建设及数据治理过程中的各种数据质量问题。 Qualitis 基于 Sprin...

收藏 33
更新于 2022/07/12

Scriptis - 交互式数据分析工具

Scriptis是一款支持在线写SQL、Pyspark、HiveQL等脚本,提交给Linkis执行的数据分析Web工具,且支持UDF、函数、资源管控和智能诊断等企业级特性。 核心特点: 脚本编辑...

收藏 94
更新于 2019/07/27

Annoy - 求近似最近邻的库

Annoy 是 Spotify 开源的高维空间求近似最近邻的库,在 Spotify 使用它进行音乐推荐。最邻近搜索(Nearest Neighbor Search, NNS)又称为“最近点搜索”...

收藏 12
Annoy

GrimoireLab - 用于软件开发分析的工具集

GrimoireLab 是一个用于软件开发分析的工具集。它包括一组协调的工具,用于从支持软件开发(存储库)的系统中检索数据,将其存储在数据库中,通过计算相关指标来丰富它,并使其易于运行分析和可视...

收藏 86
更新于 2021/07/30
GrimoireLab

xarray - 在 NumPy 多维数组中加入变量名与坐标索引

xarray 是一个开源 Python 包,它可以使处理多维数组更加简单、高效并有趣。xarray 在原始类 NumPy 多维数组中引入了标签化的变量名称和坐标索引,实现了更直观、更简洁和更加不...

收藏 30
更新于 2021/05/20
xarray

Apache SeaTunnel - 高性能分布式数据集成平台

seatunnel 是一个非常易用的支持海量数据实时同步的超高性能分布式数据集成平台,每天可以稳定高效同步数百亿数据,已在近百家公司生产上使用。 为什么我们需要 seatunnel seatun...

收藏 65
更新于 2023/01/05
Apache SeaTunnel

wuhan2020 - 新型冠状病毒防疫信息收集平台

wuhan2020 是一个新型冠状病毒防疫信息收集平台。针对 2020 年初在武汉爆发的新型冠状病毒疫情,本项目旨在收集各医院、酒店、工厂、物流、捐赠、捐款、预防、治疗、动态等信息,统一收集,统...

收藏 7

fq - 二进制数据解析工具

fq 是一个用于检查二进制数据的工具和解析器。 在大多数情况下,fq 的工作方式与 jq 相同,但它不是读取 JSON,而是读取二进制数据。结果是一个 JSON 兼容的结构,其中每个值都有一个位...

收藏 30
更新于 2022/05/09

UMAD-SZU - 大数据管理分析系统

UMAD (Universal Management and Analysis of Data) 是致力于实现通用的大数据管理分析系统的项目。该项目利用度量空间的高度抽象性的特点,将各种各样的数...

收藏 21

Brooklin - 近实时大规模数据流式传输

Brooklin 是一种近实时的大规模数据流分布式服务,LinkedIn 自 2016 年以来一直在使用这项服务,支撑每天数千个数据流和超过 2 万亿条消息。 为什么要开发 Brooklin? ...

收藏 55

MR4C - C++ 的 MapReduce​ 框架

MR4C 是 Google 开发的 C++ 的 MapReduce 框架,你可以在 Hadoop 架构中执行本地代码。 依赖: tested with Ubuntu 12.04 and Cent...

收藏 46
更新于 2015/02/24

AthenaX - 数据流分析平台

AthenaX 是 Uber 的内部流分析平台,旨在满足以下需求并为每一个人提供可访问的流分析能力: (1)轻松为各类用户提供导航服务,而无需对其技术背景提出任何要求 ; (2)以可扩展及高效方...

收藏 14

Faust - Python 流处理

Faust 是一个流处理库,将想法从 Kafka Streams 移植到 Python。 它在 Robinhood 用于构建高性能的分布式系统和实时数据管道,每天处理数十亿个事件。 Faust ...

收藏 11
Faust

Koalas - Apache Spark Pandas API

通过扩充Apache Spark的Python DataFrame API以与Pandas兼容,Koalas项目在与大数据交互时提高了数据科学家的工作效率。 Pandas是Python中事实上的...

收藏 6
开源软件作者
falsy 作者
xkbeancomparator 作者
hexo-asset-img 作者

Databend - 现代实时数据处理和分析 DBMS

Databend 是一个具有云原生架构的现代实时数据处理和分析 DBMS,旨在简化数据云。 Principles Fearless 没有数据竞争,没有不安全,最大限度地减少未处理的错误 高性能 ...

收藏 16
更新于 2022/08/23
Databend

DataCap - 数据转换/集成/可视化

DataCap是数据转换、集成和可视化的集成软件。支持各种数据源,如MySQL,ClickHouse,PostgreSQL,Apache Druid等 支持组件 更多组件持续支持中。。。 支持功...

收藏 33
更新于 2023/01/31

Dlink - 交互式的 FlinkSQL Studio

实时即未来,Dlink 为 Apache Flink 而生,让 Flink SQL 纵享丝滑,并致力于实时计算平台建设。 Dinky 基于 Apache Flink 实现 Dlink ,增强 F...

收藏 37
更新于 2022/07/24

ExcelSpice - 数据处理工具

用ExcelSpice处理数据 ExcelSpice的目标是让数据检索、统计分析、标记、收藏、再利用工作变得“极其简单”,它也可以作为VBA项目的第三方库,能够大幅简化代码,节省开发时间。它用V...

收藏 11

gmq - 基于 golang 和 redis 实现的简易队列

1. 概述 gmq是基于redis提供的特性,使用go语言开发的一个简单易用的队列;关于 redis 使用特性可以参考之前本人写过一篇很简陋的文章 Redis 实现队列;gmq的灵感和设计是基于...

收藏 17

没有更多内容

加载失败,请刷新页面