Uber 大数据存储系统 Hudi

Uber 大数据存储系统 Hudi

Apache
Java
跨平台
Uber
2019-05-12
红薯

Hudi 是 Uber 在 2016 年以“Hoodie”为代号开发,旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题。2019 年 1 月,Uber 向 Apache 孵化器提交了 Hudi,从而进一步推进了 Uber 的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。

hudi_intro_1.png

Hudi 是一个通用的大数据存储系统,主要特性:

  • 摄取和查询引擎之间的快照隔离,包括 Apache Hive、Presto 和 Apache Spark;
  • 支持回滚和存储点,可以恢复数据集;
  • 自动管理文件大小和布局,以优化查询性能和目录清单;
  • 准实时摄取,为查询提供最新数据;
  • 实时数据和列数据的异步压缩。

Hudi 目前管理着 4000 多个表,这些表在 Uber 上存储了几 PB 的数据,同时将 Apache Hadoop 仓库访问延迟从几个小时降低到 30 分钟以下,这证明了它的可伸缩性。Hudi 还为数百个增量数据管道提供了支撑,与该公司以前使用的解决方案相比,它的成本更低,效率更高。

的码云指数为
超过 的项目
加载中

评论(1)

暂无资讯

暂无问答

社区活动 | Apache Kylin × Apache RocketMQ Meetup 深圳站

9 月 7 日,Apache Kylin Meetup 即将走进深圳!本次 Meetup 由 Apache Kylin 与 Apache RocketMQ 联合举办,邀请到来自腾讯、阿里 、平安云以及 Kyligence 等六位技术专家为大家呈现 Kylin ...

08/22 21:42
14
0
大数据架构如何做到流批一体?

阿里妹导读:大数据与现有的科技手段结合,对大多数产业而言都能产生巨大的经济及社会价值。这也是当下许多企业,在大数据上深耕的原因。大数据分析场景需要解决哪些技术挑战?目前,有哪些主...

07/02 10:36
22
0
Lambda plus: 云上大数据解决方案

本文会简述大数据分析场景需要解决的技术挑战,讨论目前主流大数据架构模式及其发展。最后我们将介绍如何结合云上存储、计算组件,实现更优的通用大数据架构模式,以及该模式可以涵盖的典型数...

06/05 17:01
7
0
Lambda plus: 云上大数据解决方案

本文会简述大数据分析场景需要解决的技术挑战,讨论目前主流大数据架构模式及其发展。最后我们将介绍如何结合云上存储、计算组件,实现更优的通用大数据架构模式,以及该模式可以涵盖的典型数...

06/05 17:33
4
0
大数据架构如何做到流批一体?

阿里妹导读:大数据与现有的科技手段结合,对大多数产业而言都能产生巨大的经济及社会价值。这也是当下许多企业,在大数据上深耕的原因。大数据分析场景需要解决哪些技术挑战?目前,有哪些主...

07/02 12:44
12
0

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部