Apache Hudi 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
Apache Hudi 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
Apache Hudi 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
Apache Hudi 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
Apache Hudi 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !
授权协议 Apache
开发语言 Java
操作系统 跨平台
软件类型 开源软件
所属分类 大数据数据存储
开源组织 Uber
地区 不详
投 递 者 红薯
适用人群 未知
收录时间 2019-05-12

软件简介

Hudi 是 Uber 在 2016 年以“Hoodie”为代号开发,旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题。2019 年 1 月,Uber 向 Apache 孵化器提交了 Hudi,从而进一步推进了 Uber 的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。

hudi_intro_1.png

Hudi 是一个通用的大数据存储系统,主要特性:

  • 快速,可插入索引的Upsert支持
  • 通过回滚支持以原子方式发布数据
  • 作者与查询之间的快照隔离
  • 数据恢复保存点
  • 使用统计信息管理文件大小,布局
  • 行和列数据的异步压缩
  • 时间轴元数据以跟踪 lineage

Hudi 目前管理着 4000 多个表,这些表在 Uber 上存储了几 PB 的数据,同时将 Apache Hadoop 仓库访问延迟从几个小时降低到 30 分钟以下,这证明了它的可伸缩性。Hudi 还为数百个增量数据管道提供了支撑,与该公司以前使用的解决方案相比,它的成本更低,效率更高。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (1)

加载中
good!
2019/06/17 13:35
回复
举报
更多评论
09/01 10:44

Apache Hudi 0.9.0 版本重磅发布!更强大的流式数据湖平台

1. 重点特性 1.1 Spark SQL支持 0.9.0 添加了对使用 Spark SQL 的 DDL/DML 的支持,朝着使所有角色(非工程师、分析师等)更容易访问和操作 Hudi 迈出了一大步。用户现在可以使用 CREATE TABLE....USING HUDI 和 CREATE TABLE .. AS SELECT 语句直接在 Hive 等目录中创建和管理表。然后用户可以使用 INSERT、UPDATE、MERGE INTO 和 DELETE 语句来操作数据。此外,INSERT OVERWRITE 语句可用于覆盖现有批处理 ETL 管道的表或分区...

1
10
发表了资讯
08/30 08:22

更进一步节省空间!Apache Hudi 支持虚拟键

1. 摘要 Apache Hudi 可帮助您构建和管理具有不同表类型的数据湖,以满足每个人的需求。Hudi 为每条记录添加了元数据字段,例如 _hoodie_record_key、_hoodie_partition_path、_hoodie_commit_time,这些字段有多种用途。 它们有助于避免在合并、压缩和其他表操作期间重新计算记录键、分区路径 还有助于支持记录级增量查询(与仅跟踪文件的其他表格式相比) 另外即使给定表的键字段在其生命周期内发生更改,它也可以通过确保唯一...

0
2
07/19 08:14

Apache Hudi 社区新晋多名顶级互联网公司 Committer

1. 介绍 经过Apache Hudi项目委员会讨论及投票决定,来自阿里云的Pengzhiwei和DannyChan成为Apache Hudi Committer,新晋人才也保证了Hudi社区在正确的轨道上不断发展。 Pengzhiwei持续在Apache Hudi社区贡献,开发了诸多特性,如Spark SQL集成Hudi,该功能降低了用户使用Hudi的门槛,SQL化操作让数据入湖更加顺滑,还贡献了Spark流式读取Hudi表,Spark FileIndex等一系列Spark侧的特性,同时在Github Issue、Hudi中国微信群积极...

0
2
发表于AI & 大数据专区
2020/06/05 09:11

ASF 官方正式宣布 Apache Hudi 晋升为顶级项目

Apache 软件基金会( Apache Software Foundation,ASF)于官网发文,正式宣布 Apache Hudi 晋升为 Apache 顶级项目(TLP)。 Apache Hudi(Hadoop Upserts Delete and Incremental)数据湖技术可在 Apache Hadoop 兼容的云存储和分布式文件系统之上进行流处理。该项目最初于 2016 年在 Uber 开发(代号和发音为"Hoodie"),于 2017 年开源,并于 2019 年 1 月提交给 Apache 孵化器。 它的核心功能包括: 可插拔式的索引支持快速...

2
8
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
2019/04/10 10:10

Hudi基本概念

Apache Hudi(发音为“Hoodie”)在DFS的数据集上提供以下流原语 插入更新 (如何改变数据集?) 增量拉取 (如何获取变更的数据?) 在本节中,我们将讨论重要的概念和术语,这些概念和术语有助于理解并有效使用这些原语。 时间轴 在它的核心,Hudi维护一条包含在不同的即时时间所有对数据集操作的时间轴,从而提供,从不同时间点出发得到不同的视图下的数据集。Hudi即时包含以下组件 操作类型 : 对数据集执行的操作类型 即时时间 : 即...

0
1
发表于数据库专区
2020/11/26 15:50

Hudi java.lang.ClassNotFoundException: org.apache.hudi.hadoop.HoodieParquetInputFormat

添加hudi-hadoop-mr-bundle-0.5.3.jar 到HIVE lib目录 重启Hive metastore 和hiveserver2

0
0
2020/12/27 19:47

Apache Hudi使用简介

[TOC] ### 数据实时处理和实时的数据 实时分为处理的实时和数据的实时 即席分析是要求对数据实时的处理,马上要得到对应的结果 Flink、Spark Streaming是用来对实时数据的实时处理,数据要求实时,处理也要迅速 数据不实时,处理也不及时的场景则是我们的数仓T+1数据 而本文探讨的Apache Hudi,对应的场景是数据的实时,而非处理的实时。它旨在将Mysql中的时候以近实时的方式映射到大数据平台,比如Hive中。 ### 业务场景和技术...

0
0
发表了博客
2019/11/25 19:36

BloomFilter在Hudi中的应用

Bloom Filter在Hudi中的应用 介绍 Bloom Filter可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,主要缺点是存在一定的误判率:当其判断元素存在时,实际上元素可能并不存在。而当判定不存在时,则元素一定不存在,Bloom Filter在对精确度要求不太严格的大数据量场景下运用十分广泛。 引入 为何要引入Bloom Filter?这是Hudi为加快数据upsert采用的一种解决方案,即判断record是否已经...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
1 评论
48 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部