Apache Iceberg 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
Apache Iceberg 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
Apache Iceberg 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
Apache Iceberg 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
Apache Iceberg 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !
授权协议 Apache-2.0
开发语言 Java 查看源码 »
操作系统 跨平台
软件类型 开源软件
所属分类 大数据数据存储
开源组织 Apache
地区 不详
投 递 者 h4cd
适用人群 未知
收录时间 2020-04-30

软件简介

Apache Iceberg 是一种新的表格格式,用于存储和分析大型的、移动缓慢的表格数据。它的工作方式类似于 SQL 表,它旨在改进内置在 Hive、Presto 和 Spark 中的事实上的标准表布局。

对于使用者来说:

  • 模式演化(Schema evolution)支持添加、删除、更新或重命名,并且没有副作用
  • 隐藏分区(Hidden partitioning)可以防止导致错误提示或非常慢查询的用户错误
  • 分区布局演变(Partition layout evolution)可以随着数据量或查询模式的变化而更新表的布局
  • 时光穿梭(Time travel)可使用完全相同的表快照实现重新查询,或者使用户轻松检查更改
  • 版本回滚使用户可以通过将表重置为良好状态来快速纠正问题

可靠性与性能方面,Iceberg 可用于生产中,它的一个表可以包含数十 PB 的数据,即使没有分布式 SQL 引擎也可以读取这些巨大规模的表。

  • 扫描速度很快,无需使用分布式 SQL 引擎即可读取表或查找文件
  • 高级过滤,使用表元数据对数据文件以分区和列级统计信息进行修剪

Iceberg 旨在解决最终一致的云对象存储中的正确性问题:

  • 可与任何云存储一起使用,并且通过避免列出(list)和重命名,可以在 HDFS 中减少 NN 拥塞
  • 可序列化的隔离,表更改是原子性的,对外永远不会有部分更改或未提交的更改
  • 多个并发写入器使用乐观并发,即使写入冲突,也将重试以确保兼容更新成功
展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (1)

加载中
666
2020/07/14 09:37
回复
举报
更多评论
暂无内容
发表了博客
2020/11/21 10:15

Apache Iceberg 小文件合并

本文是《Apache Iceberg 入门教程》专题的第 1 篇,共 9 篇: Apache Iceberg 小文件合并 深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案 Apache iceberg:Netflix 数据仓库的基石 Apache Iceberg 快速入门 数据湖技术 Iceberg 的探索与实践 基于 Apache Iceberg 打造 T+0 实时数仓 Apache Iceberg 中三种操作表的方式 Apache Iceberg 代码调试技巧 一条数据在 Apache Iceberg 之旅:写过程分析 下一篇文章 » 在 《一条数...

0
1
发表了博客
2020/11/06 16:32

Apache Iceberg 代码调试技巧

当前数据湖方向非常热门,市面上也出现了三款开源的数据湖产品:Delta Lake、Apache Hudi 以及 Apache Iceberg。这段时间抽了点时间看了下使用 Apache Spark 读写 Apache Iceberg 的代码。完全看代码肯定有些吃力,所以使用了代码调试功能。 由于 Apache Iceberg 支持 Apache Spark 2.x 以及 3.x,并在创建了不同的模块。其相当于 Spark 的 Connect。Apache Spark 2.x 以及 3.x 读写 Iceberg 的入口都是 org.apache.iceberg.spa...

0
0
2012/10/11 23:00

网易数据湖 Iceberg 探索与实践

导读:今天主要和大家交流的是网易在数据湖Iceberg的一些思考与实践。从网易在数据仓库建设中遇到的痛点出发,介绍对数据湖Iceberg的探索以及实践之路。 主要内容包括: 数据仓库平台建设的痛点 数据湖Iceberg的核心原理 数据湖Iceberg社区现状 网易数据湖Iceberg实践之路 01 数据仓库平台建设的痛点 痛点一: 我们凌晨一些大的离线任务经常会因为一些原因出现延迟,这种延迟会导致核心报表的产出时间不稳定,有些时候会产出比较...

0
1
发表了博客
2020/09/09 19:20

数据湖技术 Iceberg 的探索与实践

本文资料来自2020年9月5日由快手技术团队主办的快手大数据平台架构技术交流会,分享者邵赛赛,腾讯数据平台部数据湖内核技术负责人,资深大数据工程师,Apache Spark PMC member & committer, Apache Livy PMC member,曾就职于 Hortonworks,Intel 。 随着大数据存储和处理需求的多样化,如何构建一个统一的数据湖存储,并在其上进行多种形式的数据分析成了企业构建大数据生态的一个重要方向。Netflix 发起的 Apache Iceberg 项...

0
0
发表了博客
2020/03/19 20:24

Apache iceberg:Netflix 数据仓库的基石

https://yq.aliyun.com/articles/747058 Apache Iceberg 是一种用于跟踪超大规模表的新格式,是专门为对象存储(如S3)而设计的。 本文将介绍为什么 Netflix 需要构建 Iceberg,Apache Iceberg 的高层次设计,并会介绍那些能够更好地解决查询性能问题的细节。 本文由 Ryan Blue 分享,他在 Netflix 从事开源数据项目,是 Apache Iceberg 的最初创建者之一,也是 Apache Spark, Parquet, 以及 Avro 贡献者。 Apache Iceberg 是由...

0
0
2020/02/28 13:41

Apache iceberg:Netflix 数据仓库的基石

天前 Apache Iceberg 是一种用于跟踪超大规模表的新格式,是专门为对象存储(如S3)而设计的。 本文将介绍为什么 Netflix 需要构建 Iceberg,Apache Iceberg 的高层次设计,并会介绍那些能够更好地解决查询性能问题的细节。 本文由 Ryan Blue 分享,他在 Netflix 从事开源数据项目,是 Apache Iceberg 的最初创建者之一,也是 Apache Spark, Parquet, 以及 Avro 贡献者。 Apache Ic eberg 是由 Netflix 开发开源的,其于 2018年...

0
0
发表了博客
2020/11/30 07:19

Apache Iceberg 的时间旅行是如何实现的?

文章目录 1 Apache Iceberg 的底层数据组织 1.1 Apache Iceberg 用到的一些术语 1.1.1 数据文件(data files) 1.1.2 清单文件(Manifest file) 1.1.3 清单列表(Manifest list) 1.1.4 快照(Snapshot) 2 Apache Iceberg 表的数据组织 3 Apache Iceberg 时间旅行的实现 3.1 查询最新快照的数据 3.2 查询某个快照的数据 3.3 根据时间戳查看某个快照的数据 本文是《Apache Iceberg 源码解析》专题的第 2 篇,共 3 篇: Apache...

0
0
发表了博客
2020/11/09 07:09

Apache Iceberg 中三种操作表的方式

在 Apache Iceberg 中有很多种方式可以来创建表,其中就包括使用 Catalog 方式或者实现 org.apache.iceberg.Tables 接口。下面我们来简单介绍如何使用。. 如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号: iteblog_hadoop 文章目录 1 使用 Hive catalog 2 使用 Hadoop catalog 3 使用 Hadoop tables 使用 Hive catalog 从名字就可以看出,Hive catalog 是通过连接 Hive 的 MetaStore,把 Iceberg 的表存储...

0
0
发表了博客
2020/11/14 14:39

一条数据在 Apache Iceberg 之旅:写过程分析

本文基于 Apache Iceberg 0.9.0 最新分支,主要分析 Apache Iceberg 中使用 Spark 2.4.6 来写数据到 Iceberg 表中,也就是对应 iceberg-spark2 模块。当然,Apache Iceberg 也支持 Flink 来读写 Iceberg 表,其底层逻辑也 Spark 类似,感兴趣的同学可以去看看。 文章目录 1 使用 Spark2 将数据写到 Apache Iceberg 2 Apache Iceberg 数据写路径 2.1 Apache Iceberg 写数据在 Spark Driver 端的处理 2.2 Apache Iceberg 写数据在...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
1 评论
46 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部