Apache Iceberg 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
Apache Iceberg 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
授权协议: Apache-2.0
开发语言: Java 查看源码 »
操作系统: 跨平台
开发厂商: Apache
收录时间: 2020-04-30
提 交 者: h4cd

Apache Iceberg 是一种新的表格格式,用于存储和分析大型的、移动缓慢的表格数据。它的工作方式类似于 SQL 表,它旨在改进内置在 Hive、Presto 和 Spark 中的事实上的标准表布局。

对于使用者来说:

  • 模式演化(Schema evolution)支持添加、删除、更新或重命名,并且没有副作用
  • 隐藏分区(Hidden partitioning)可以防止导致错误提示或非常慢查询的用户错误
  • 分区布局演变(Partition layout evolution)可以随着数据量或查询模式的变化而更新表的布局
  • 时光穿梭(Time travel)可使用完全相同的表快照实现重新查询,或者使用户轻松检查更改
  • 版本回滚使用户可以通过将表重置为良好状态来快速纠正问题

可靠性与性能方面,Iceberg 可用于生产中,它的一个表可以包含数十 PB 的数据,即使没有分布式 SQL 引擎也可以读取这些巨大规模的表。

  • 扫描速度很快,无需使用分布式 SQL 引擎即可读取表或查找文件
  • 高级过滤,使用表元数据对数据文件以分区和列级统计信息进行修剪

Iceberg 旨在解决最终一致的云对象存储中的正确性问题:

  • 可与任何云存储一起使用,并且通过避免列出(list)和重命名,可以在 HDFS 中减少 NN 拥塞
  • 可序列化的隔离,表更改是原子性的,对外永远不会有部分更改或未提交的更改
  • 多个并发写入器使用乐观并发,即使写入冲突,也将重试以确保兼容更新成功
展开阅读全文

代码

的 Gitee 指数为
超过 的项目

Apache Iceberg 的相关资讯

还没有任何资讯

Apache Iceberg 的相关博客

数据湖技术 Iceberg 的探索与实践

本文资料来自2020年9月5日由快手技术团队主办的快手大数据平台架构技术交流会,分享者邵赛赛,腾讯数据平台部数据湖内核技术负...

Apache iceberg:Netflix 数据仓库的基石

https://yq.aliyun.com/articles/747058 Apache Iceberg 是一种用于跟踪超大规模表的新格式,是专门为对象存储(如S3)而设计...

Apache iceberg:Netflix 数据仓库的基石

https://yq.aliyun.com/articles/747058 Apache Iceberg 是一种用于跟踪超大规模表的新格式,是专门为对象存储(如S3)而设计...

Apache iceberg:Netflix 数据仓库的基石

天前 Apache Iceberg 是一种用于跟踪超大规模表的新格式,是专门为对象存储(如S3)而设计的。 本文将介绍为什么 Netflix 需要...

基于 Apache Iceberg 打造 T+0 实时数仓

大数据处理技术现今已广泛应用于各个行业,为业务解决海量存储和海量分析的需求。但数据量的爆发式增长,对数据处理能力提出了...

开源数据湖方案选型:Hudi、Delta、Iceberg深度对比

目前市面上流行的三大开源数据湖方案分别为: delta、Apache Iceberg和Apache Hudi。 其中,由于Apache Spark在商业化上取得巨...

开源数据湖方案选型:Hudi、Delta、Iceberg深度对比

目前市面上流行的三大开源数据湖方案分别为: delta、Apache Iceberg和Apache Hudi。 其中,由于Apache Spark在商业化上取得巨...

最强指南!数据湖Apache Hudi、Iceberg、Delta环境搭建

1. 引入 作为依赖Spark的三个数据湖开源框架Delta,Hudi和Iceberg,本篇文章为这三个框架准备环境,并从Apache Spark、Hive和...

深度对比delta、iceberg和hudi三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为:delta、Apache Iceberg和Apache Hudi。其中,由于Apache Spark在商业化上取得巨大...

Data Lake 三剑客—Delta、Hudi、Iceberg 对比分析

本文来源于云栖社区:https://yq.aliyun.com/articles/743514 作者:xy_xin 共同点 定性上讲,三者均为 Data Lake 的数据存储...

Apache Iceberg 的相关问答

还没有任何问答,马上提问

评论 (1)

加载中
666
07/14 09:37
回复
举报
更多评论
1 评论
43 收藏
分享
返回顶部
顶部