Apache Parquet MR 1.12.0 发布,列存储格式

来源: 投稿
作者: 御坂弟弟
2021-03-27

Apache Parquet MR 1.12.0 已经发布。 Parquet 是支持嵌套数据的通用列文件格式,使用节省空间的编码和用于处理框架(如Hadoop)的压缩和可拆分结构。

主要更新内容

  • parquet-format-structures 加密
  • parquet-mr 代码更改以支持加密
  • 添加空命令
  • [C++] 修复在 32 位结构上产生的损坏文件
  • 修复 Maven Protobuf 插件无法正常工作的问题
  • 修复升级 Scrooge 版本时出现编译错误的问题
  • 修复 API 后向兼容性问题导致主分支构建失败的问题
  • 修复在 ParquetInputSplit 中找不到 FilleInputSplit 的问题
  • 修复 ParquetMetadataConveter 在 Iceberg 单元测试中抛出 NPE 的问题
  • 添加加密密钥管理工具
  • 添加 BYTE_STREAM_SPLIT 编码
  • 添加 parquet 加密的属性驱动接口

详情请查看更新公告

展开阅读全文
1 收藏
分享
加载中
更多评论
0 评论
1 收藏
分享
返回顶部
顶部