Apache Arrow 4.0.1 发布,内存数据交换格式

来源: 投稿
作者: 御坂弟弟
2021-06-24

Apache Arrow 4.0.1 现已发布。Apache Arrow 是 Apache 基金会的顶级项目之一,目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。它包含一组规范的内存中的平面和分层数据表示,以及多种语言绑定以进行结构操作。 它还提供低架构流式传输和批量消息传递,零拷贝进程间通信(IPC)和矢量化的内存分析库。

主要更新内容

  • [Python][C++] 在 v4.0.0 中转换 int64 的切片 ListArray 时出现段错误
  • [R][Packaging] 修复 r/configure 中的 pkg-config 检查
  • [R] open_dataset 在使用 select 时忽略提供的模式
  • [R][Packaging] 数据集,在 autobrew 和 CRAN Mac 版本中关闭 Parquet
  • [Python] pyarrow.orc.write_table 签名与 pyarrow.parquet.write_table 的签名相反
  • [Python] 在 Flight 服务器中读取 CSV 时出现段错误
  • [R] LIBARROW_MINIMAL、LIBARROW_DOWNLOAD、NOT_CRAN 环境变量不应该区分大小写
  • [C++] 使用 nvcc 11.2 编译 arrow header 时出现段错误
  • [C++] extract_regex 在空值或不匹配后会出现异常行为
  • [Go][Flight] 客户端身份验证处理程序覆盖传出的元数据
  • [Python] 超出范围的负数片产生无效的数组
  • [C++][Compute] replace_substring_regex() 创建无效数组 => 崩溃
  • [Archery][Integration] 修复 write_js_test_json 中十进制大小写的生成
  • [R] 传递新的 UCRT CRAN windows 构建
  • [R] 小规模的文档更新
  • [R][CI] 使用 valgrind 每晚运行 R
  • [JS] 简化 NodeJS 中的 UTF8 处理
  • [Python] pyarrow sdist 不需要 git
  • [Python] test_write_to_dataset_filesystem 缺少数据集标记

详情请查看更新公告

展开阅读全文
2 收藏
分享
加载中
更多评论
0 评论
2 收藏
分享
返回顶部
顶部