Apache Hudi 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
Apache Hudi 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
Apache Hudi 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 Apache
开发语言 Java
操作系统 跨平台
软件类型 开源软件
所属分类 大数据数据存储
开源组织 Uber
地区 不详
投 递 者 红薯
适用人群 未知
收录时间 2019-05-12

软件简介

Hudi 是 Uber 在 2016 年以“Hoodie”为代号开发,旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题。2019 年 1 月,Uber 向 Apache 孵化器提交了 Hudi,从而进一步推进了 Uber 的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。

hudi_intro_1.png

Hudi 是一个通用的大数据存储系统,主要特性:

  • 快速,可插入索引的Upsert支持
  • 通过回滚支持以原子方式发布数据
  • 作者与查询之间的快照隔离
  • 数据恢复保存点
  • 使用统计信息管理文件大小,布局
  • 行和列数据的异步压缩
  • 时间轴元数据以跟踪 lineage

Hudi 目前管理着 4000 多个表,这些表在 Uber 上存储了几 PB 的数据,同时将 Apache Hadoop 仓库访问延迟从几个小时降低到 30 分钟以下,这证明了它的可伸缩性。Hudi 还为数百个增量数据管道提供了支撑,与该公司以前使用的解决方案相比,它的成本更低,效率更高。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击加入讨论🔥(2)
发表了资讯
2021/12/13 10:51

Apache Hudi 0.10.0 版本重磅发布!

在发布的Apache Hudi 0.10.0版本中共解决了388个issue,包括众多重磅特性支持以及Bug修复。 1. 重点特性 1.1 Kafka Connect(Kafka连接器) 在0.10.0 中我们为 Hudi 添加了一个 Kafka Connect Sink,为用户提供了从 Apache Kafka 直接向 Hudi 表摄取/流式传输记录的能力。虽然用户已经可以使用 Deltastreamer/Spark/Flink 将 Kafka 记录流式传输到 Hudi 表中,但 Kafka Connect Sink为当前用户提供了好的灵活性,如果不部署和运...

0
5
发表了资讯
2021/12/10 14:21

Flink Hudi 0.10.0 发布,多项重要更新,稳定性大幅提升

随着云数仓技术的不断成熟,数据湖俨然已成为当下最热门的技术之一,而 Apache Hudi 是当下最具竞争力的数据湖格式之一: 拥有最活跃的开源社区之一,周活跃 PR 一直维持在 50+ 水平; 拥有最活跃的国内用户群之一,目前的 Apache Hudi 钉钉群用户已超过 2200+,国内各大厂商都已经布局 Apache Hudi 生态。 Apache Hudi 的活跃度得益于其出色的 file format 设计和丰富的事物语义支持: 类 LSM 的 file format 布局很好的适配了...

1
6
2021/09/01 10:44

Apache Hudi 0.9.0 版本重磅发布!更强大的流式数据湖平台

1. 重点特性 1.1 Spark SQL支持 0.9.0 添加了对使用 Spark SQL 的 DDL/DML 的支持,朝着使所有角色(非工程师、分析师等)更容易访问和操作 Hudi 迈出了一大步。用户现在可以使用 CREATE TABLE....USING HUDI 和 CREATE TABLE .. AS SELECT 语句直接在 Hive 等目录中创建和管理表。然后用户可以使用 INSERT、UPDATE、MERGE INTO 和 DELETE 语句来操作数据。此外,INSERT OVERWRITE 语句可用于覆盖现有批处理 ETL 管道的表或分区...

1
9
发表了资讯
2021/08/30 08:22

更进一步节省空间!Apache Hudi 支持虚拟键

1. 摘要 Apache Hudi 可帮助您构建和管理具有不同表类型的数据湖,以满足每个人的需求。Hudi 为每条记录添加了元数据字段,例如 _hoodie_record_key、_hoodie_partition_path、_hoodie_commit_time,这些字段有多种用途。 它们有助于避免在合并、压缩和其他表操作期间重新计算记录键、分区路径 还有助于支持记录级增量查询(与仅跟踪文件的其他表格式相比) 另外即使给定表的键字段在其生命周期内发生更改,它也可以通过确保唯一...

0
2
2021/07/19 08:14

Apache Hudi 社区新晋多名顶级互联网公司 Committer

1. 介绍 经过Apache Hudi项目委员会讨论及投票决定,来自阿里云的Pengzhiwei和DannyChan成为Apache Hudi Committer,新晋人才也保证了Hudi社区在正确的轨道上不断发展。 Pengzhiwei持续在Apache Hudi社区贡献,开发了诸多特性,如Spark SQL集成Hudi,该功能降低了用户使用Hudi的门槛,SQL化操作让数据入湖更加顺滑,还贡献了Spark流式读取Hudi表,Spark FileIndex等一系列Spark侧的特性,同时在Github Issue、Hudi中国微信群积极...

0
2
发表于AI & 大数据专区
2020/06/05 09:11

ASF 官方正式宣布 Apache Hudi 晋升为顶级项目

Apache 软件基金会( Apache Software Foundation,ASF)于官网发文,正式宣布 Apache Hudi 晋升为 Apache 顶级项目(TLP)。 Apache Hudi(Hadoop Upserts Delete and Incremental)数据湖技术可在 Apache Hadoop 兼容的云存储和分布式文件系统之上进行流处理。该项目最初于 2016 年在 Uber 开发(代号和发音为"Hoodie"),于 2017 年开源,并于 2019 年 1 月提交给 Apache 孵化器。 它的核心功能包括: 可插拔式的索引支持快速...

2
8
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
2 评论
48 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部