加载中

Trino - 大数据分布式 SQL 查询引擎

Trino(前身为 PrestoSQL)被设计用于处理数据仓库和分析:数据分析,聚合大量数据和生成报告。这些工作负载通常被分类为在线分析处理(OLAP)。 Trino不是一个通用的关系数据库,它...

收藏 2
Trino

OneTable - Lakehouse 表格式间全方位互操作

OneTable 是一种表格式的全方位转换器,可促进数据处理系统和查询引擎之间的互操作性。Apache Hudi、Delta Lake 和 Apache Iceberg 之间无缝互操作。 One...

收藏 6
更新于 2023/11/18
OneTable

esProc SPL - 数据分析引擎

esProc SPL 是一款面向结构化和半结构化数据的计算和处理引擎,可以用做分析型数据库和数据计算中间件。 esProc SPL 具有精心设计的丰富库函数和强大的语法,可通过 JDBC 接口在...

收藏 14
更新于 2023/10/16
esProc SPL

Fast-Causal-Inference - 腾讯开源的因果推理项目

Fast-Causal-Inference 是腾讯首个开源因果推理项目。它是一个基于 OLAP 的高性能因果推理(统计模型)计算库,解决了现有统计模型库(R/Python)在大数据下的性能瓶颈,...

收藏 3
更新于 2023/09/15

XL-LightHouse - 通用型流式大数据统计平台

XL-LightHouse是针对互联网领域繁杂的数据统计需求而开发的一套集成了数据写入、数据运算、数据存储和数据可视化等一系列功能,支持大数据量,支持高并发的【通用型流式大数据统计平台】。 XL...

收藏 22
更新于 2023/11/28

DIDI-ALITA - 基于图层的数据分析工具

ALITA(A Layered Instrument To Analysis)是一个基于分层分析来展示数据的工具,通过大量的业务需求沉淀抽象概括了“点”、“线”、“面”三种数据模型,完美融合地图...

收藏 1

ES-Fastloader - 离线数据索引生成方案

ES-Fastloader 是一种能够快速地为海量离线数据生成索引的方案,采用了一种 Build & Push 的机制,利用 Hadoop 强大的并行计算能力,可在 1-2 小时内极快速构建几十...

收藏 2
ES-Fastloader

CloudEon - 云原生大数据平台

CloudEon是一款基于kubernetes的开源大数据平台,简化k8s上大数据集群的运维管理,旨在为用户提供一种简单、高效、可扩展的大数据解决方案。 该平台致力于简化多种大数据服务在kube...

收藏 6

CloudCanalProcess - CloudCanal SDK 数据处理器

CloudCanal Data Process 是一款针对 CloudCanal SDK 的开源数据处理器,原生官方 SDK 只有一些说明文档。 本项目是由官方人员发起并与社区共同推进的自定义代...

收藏 13
更新于 2024/02/28

罗盘(Compass) - 大数据任务诊断平台

罗盘(Compass)是基于 OPPO 内部大数据诊断平台的开源项目,可用于诊断 DolphinScheduler、Airflow 等调度平台上所运行的大数据任务。 罗盘核心功能 罗盘目前已支持...

收藏 2
更新于 2023/04/06

FusionView - 低代码智能可视化设计工具

FusionView 富表智能数据可视化平台是一款面向企业和行业级别的用户,具有AI特色的可视化与BI商业智能敏捷分析的平台。 FusionView是围绕业务人员提供数据可视化展示分析服务的独立...

收藏 22

dataCompare-ZhuGeZiFang - 开源大数据比对平台

dataCompare 是一个数据库比对工具: 支持hive表数据比对 mysql 数据比对 实现自动化配置进行数据比对,避免频繁写sql 进行处理 后续考虑支持doris、ck等等 主要解决如...

收藏 4
更新于 2023/03/13

BitSail - 高性能数据集成引擎

BitSail 是字节跳动开源的基于分布式架构的高性能数据集成引擎,支持多种异构数据源间的数据同步,并提供离线、实时、全量、增量场景下的全域数据集成解决方案,目前服务于字节内部几乎所有业务线,包...

收藏 24
更新于 2022/10/29

DataCap - 数据转换/集成/可视化

DataCap是数据转换、集成和可视化的集成软件。支持各种数据源,如MySQL,ClickHouse,PostgreSQL,Apache Druid等. 官网地址:https://datacap...

收藏 65
更新于 2024/03/04

Amoro​​​​​​​ - 流式湖仓服务

Amoro(原名 Arctic)是一个基于开放数据湖格式构建的 Lakehouse 管理系统。Amoro 与 Flink、Spark 和 Trino 等计算引擎合作,为 Lakehouse 带来...

收藏 20
更新于 2023/11/17
Amoro​​​​​​​
开源软件作者
xmake-gradle 作者
nginx-http-flv-module 作者
jqPageNavigater 作者

Debezium - 变更数据捕获平台

Debezium 是一个为捕获数据更改 (Change Data Capture, CDC) 提供低延迟的流式处理平台,利用 Kafka 和 Kafka Connect 实现了持久性、可靠性和容...

收藏 6
更新于 2024/01/14

Dlink - 交互式的 FlinkSQL Studio

实时即未来,Dlink 为 Apache Flink 而生,让 Flink SQL 纵享丝滑,并致力于实时计算平台建设。 Dinky 基于 Apache Flink 实现 Dlink ,增强 F...

收藏 37
更新于 2024/03/02

DataHub - 元数据管理平台

DataHub 是用于处理元数据的管理平台,它可充当数据发现工具(即数据目录),来找出公司中存在哪些数据集,以及如何使用这些数据集进行测试。 特性 支持在数据库、数据湖、BI 平台、ML特征存储...

收藏 43
更新于 2021/12/12
DataHub

Apache SeaTunnel - 高性能分布式数据集成平台

SeaTunnel 是下一代超高性能的支持海量数据快速同步与集成的云原生数据集成工具,每天可以稳定高效同步万亿级数据,已在字节、B站、微博、腾讯云及印度电信等数百家公司生产上使用,目前也已经支持...

收藏 80
更新于 2024/03/04
Apache SeaTunnel

Flink Remote Shuffle - Flink 任务间数据交换

Flink Remote Shuffle 是一种批场景下利用外部服务完成任务间数据交换的 Shuffle 实现,本文后续将详细介绍 Flink Remote Shuffle 研发的背景,以及 F...

收藏 4

没有更多内容

加载失败,请刷新页面

返回顶部
顶部