Apache Arrow 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
Apache Arrow 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
Apache Arrow 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 Apache
开发语言 Java C/C++ 查看源码 »
操作系统 跨平台
软件类型 开源软件
所属分类 大数据其他
开源组织 Apache
地区 不详
投 递 者 红薯
适用人群 未知
收录时间 2017-01-17

软件简介

Apache Arrow是Apache基金会下一个全新的开源项目,同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。

用户在应用大数据分析时除了将Hadoop等大数据平台作为一个经济的存储和批处理平台之外也很看重分析系统的扩展性和性能。过去几年开源社区已经发布了很多工具来完善大数据分析的生态系统,这些工具涵盖了数据分析的各个层面,比如列式存储格式(Parquet/ORC)、内存计算层(Drill、Spark、Impala和Storm)以及强大的API接口(Python和R语言)。Arrow则是最新加入的一员,它提供了一种跨平台跨应用的内存数据交换格式。

提高大数据分析性能的一个重要手段是对列式数据的设计和处理。列式数据处理借助向量计算和SIMD使我们可以充分挖掘硬件的潜力。Apache Drill这一大数据查询引擎无论是在硬盘还是在内存中数据都是以列的方式存在的,而Arrow就是由Drill中Value Vector这一数据格式发展而来。除了列式数据,Apache Arrow也支持关系型和动态数据集,这使它成了处理物联网等数据时的理想格式选择。

Apache Arrow为大数据生态系统带来了可能性是无穷的。有Apache Arrow做为今后的标准数据交换格式,各个数据分析的系统和应用之间的交互性可以说是上了一个新的台阶。过去大部分的CPU周期都花在了数据的序列化和反序列化上,现在我们则能够实现不同系统之间数据的无缝共享。这意味着用户在将不同的系统结合使用时再也不用为数据格式多花心思了。

Performance Advantage of Columnar In-Memory
                       


Advantages of a Common Data Layer
                     

  • 每个系统都有自己内部的内存格式

  • 70-80%的CPU浪费在序列化和反序列化过程

  • 类似功能在多个项目中实现,没有一个标准

  • 所有系统都使用同一个内存格式

  • 避免了系统间通信的开销

  • 项目间可以共享功能(比如Parquet-to-Arrow reader)

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击加入讨论🔥(3)
2021/10/30 07:40

Apache Arrow 6.0.0 发布

Apache Arrow 是一个列式内存分析层,旨在加速大数据的分析。它包含了一套平面和分层数据的典型内存表示,以及用于结构化数据的多种语言绑定。目前支持的语言包括 C、C++、C#、Go、Java、JavaScript、Julia、MATLAB、Python、R、Ruby 和 Rust。 Apache Arrow 6.0.0 正式发布,更新内容如下: 新功能和改进 ARROW-1565 - [C++] 实现 TopK/BottomK ARROW-1568 - [C++] 实现 "drop null" 内核,返回没有空值的数组 ARROW-4700 - [...

0
3
2021/07/31 07:34

Apache Arrow 5.0.0 发布

Apache Arrow 是一个列式内存分析层,旨在加速大数据的分析。它包含了一套平面和分层数据的典型内存表示,以及用于结构化数据的多种语言绑定。目前支持的语言包括 C、C++、C#、Go、Java、JavaScript、Julia、MATLAB、Python、R、Ruby 和 Rust。 Apache Arrow 5.0.0 正式发布,更新内容如下: 新功能和改进 ARROW-2665 - [Python/C++] 增加 index() 方法来查找 Python 标量的第一次出现; ARROW-3014 - [C++] ORC 文件格式的最小...

0
1
2021/06/24 06:37

Apache Arrow 4.0.1 发布,内存数据交换格式

Apache Arrow 4.0.1 现已发布。Apache Arrow 是 Apache 基金会的顶级项目之一,目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。它包含一组规范的内存中的平面和分层数据表示,以及多种语言绑定以进行结构操作。 它还提供低架构流式传输和批量消息传递,零拷贝进程间通信(IPC)和矢量化的内存分析库。 主要更新内容 [Python][C++] 在 v4.0.0 中转换 int64 的切片 ListArray 时出现段错误 [R][Packaging] 修复 r/...

0
2
2021/05/22 07:34

Apache Arrow 4.0.0 发布,内存数据交换格式

Apache Arrow 4.0.0 现已发布,该版本涵盖了 3 个月的开发工作,包括来自 114 个不同贡献者的 711 个已解决的问题。此外,自 3.0.0 发布以来,Yibo Cai、Ian Cook 和 Jonathan Keane 已被邀请为 Arrow 的 committers,Andrew Lamb 和 Jorge Leitão 则加入了项目管理委员会(PMC)。 Apache Arrow 是 Apache 基金会的顶级项目之一,目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。它包含一组规范的内存中的平面和...

0
6
2021/01/28 07:09

Apache Arrow 3.0.0 发布,内存数据交换格式

Apache Arrow 3.0.0 发布了,该版本包含 2.0.0 发布以来修复的 678 个问题。Apache Arrow 是 Apache 基金会的顶级项目之一,目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。它包含一组规范的内存中的平面和分层数据表示,以及多种语言绑定以进行结构操作。 它还提供低架构流式传输和批量消息传递,零拷贝进程间通信(IPC)和矢量化的内存分析库。 部分更新内容 [Python] 将 Combine_chunks 方法添加到 ChunkedA...

0
5
2020/07/30 07:21

Apache Arrow 1.0.0 发布,内存数据交换格式

Apache Arrow 1.0.0 现已发布。官方表示,此版本是 Apache Arrow 的第 18 个主要版本,标志着 columnar format 向二进制稳定性的过渡,以及 Arrow 软件库向语义版本控制的过渡。 Apache Arrow 是 Apache 基金会的顶级项目之一,目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。它包含一组规范的内存中的平面和分层数据表示,以及多种语言绑定以进行结构操作。 它还提供低架构流式传输和批量消息传递,零拷贝进程间...

1
6
发表于AI & 大数据专区
2020/05/23 07:07

Apache Arrow 0.17.1 发布,内存数据交换格式

Apache Arrow 0.17.1 已发布。Apache Arrow 是 A以及多种语言绑定以进行结构操作。 它还提供低架构流式传输和批量消息传递,零拷贝进程间通信(IPC)和矢pache 基金会的顶级项目之一,目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。它包含一组规范的内存中的平面和分层数据表示,量化的内存分析库。 此版本增加了不少新功能和改进,以及修复 bug: 新功能和改进 ARROW-8501 - [Packaging][RPM] 在 CentOS 6 上将...

0
5
发表于AI & 大数据专区
2018/10/10 07:21

Apache Arrow 0.11.0 发布,内存数据交换格式

Apache Arrow 0.11.0 已发布。Apache Arrow 是 Apache 基金会的顶级项目之一,目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。它包含一组规范的内存中的平面和分层数据表示,以及多种语言绑定以进行结构操作。 它还提供低架构流式传输和批量消息传递,零拷贝进程间通信(IPC)和矢量化的内存分析库。 该版本包含大量改进和修复,部分亮点如下: Support for CUDA-based GPUs in Python New MATLAB bindings R Li...

0
3
发表于AI & 大数据专区
2018/03/23 08:05

Apache Arrow 0.9.0 发布,内存数据交换格式

Apache Arrow 0.9.0 发布了。Apache Arrow 是 Apache 基金会的顶级项目之一。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。它包含一组规范的内存中的平面和分层数据表示,以及多种语言绑定以进行结构操作。 它还提供低架构流式传输和批量消息传递,零拷贝进程间通信(IPC)和矢量化的内存分析库。 更新内容: 新特性和改进 ARROW-1021 - [Python] Add documentation about using pyarrow from other Cytho...

1
5
发表于AI & 大数据专区
2018/02/25 07:47

Apache Arrow JavaScript 0.3.0,内存数据交换格式

Apache Arrow 社区发布了 JavaScript 版的 Apache Arrow 0.3.0,这也是第二个 JavaScript 版本。 可通过源码或 npm 上的 apache-arrow 包进行安装 https://www.apache.org/dyn/closer.cgi/arrow/arrow-js-0.3.0/apache-arrow-js-0.3.0.tar.gz https://www.npmjs.com/package/apache-arrow Apache Arrow 是 Apache 基金会的顶级项目之一。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。它包含一组规范的内存...

0
4
发表了资讯
2017/12/22 07:26

内存数据交换格式 Apache Arrow 0.8.0 引入大量新特性

Apache Arrow 0.8.0 已发布,这是一个重要版本更新,解决了自 1.7.1 以来的 286 个 issue。 Apache Arrow 是 Apache 基金会的顶级项目之一。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。它包含一组规范的内存中的平面和分层数据表示,以及多种语言绑定以进行结构操作。 它还提供低架构流式传输和批量消息传递,零拷贝进程间通信(IPC)和矢量化的内存分析库。目前支持的语言包括 C, C++, Java, JavaScri...

0
13
发表了资讯
2017/09/20 07:38

Apache Arrow 0.7.0 发布,内存数据交换格式

Apache Arrow 0.7.0 发布了。Apache Arrow 是 Apache 基金会的顶级项目之一。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。它包含一组规范的内存中的平面和分层数据表示,以及多种语言绑定以进行结构操作。 它还提供低架构流式传输和批量消息传递,零拷贝进程间通信(IPC)和矢量化的内存分析库。 更新亮点: New PMC Member: Kouhei Sutou Expanded JavaScript (TypeScript) Implementation Type castin...

2
11
发表了资讯
2017/08/17 07:11

Apache Arrow 0.6.0 发布,内存数据交换格式

Apache Arrow 0.6.0 发布了。Apache Arrow 是 Apache 基金会下一个全新的开源项目,同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。 该版本自从0.5.0以来解决了90个问题,主要更新内容如下: ARROW-1076 - [Python] Handle nanosecond timestamps more gracefully when writing to Parquet format ARROW-1093 - [Python] Fail Python builds if flake8 yields warnings ARROW-1104 - Inte...

1
14
发表了资讯
2017/06/15 07:40

Apache Arrow 0.4.1 发布,内存数据交换格式

Apache Arrow 是 Apache 基金会下一个全新的开源项目,同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。 Apache Arrow 0.4.1 是刚刚发布的最新版本。包括自 0.4.0 发布以来,31 个已解决的问题。 发行日志和更新说明 下载地址: http://arrow.apache.org/install/ >>>【评论有礼】6月6日-30日评论每日更新的“新闻资讯和软件更新资讯”,评论点赞数超过 20 的可登上每周更新的“源资讯”和...

1
11
发表了资讯
2017/05/24 07:56

Apache Arrow 0.4.0 发布,内存数据交换格式

Apache Arrow 是 Apache 基金会下一个全新的开源项目,同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。 Apache Arrow 0.4.0 是刚刚发布的最新版本。包括自 0.3.0 发布以来,77 个已解决的问题。 发行日志和更新说明 下载地址: http://arrow.apache.org/install/ >>>【全民狂欢,评论有礼】5月15日-31日评论每日更新的“新闻资讯和软件更新资讯”,评论点赞数超过 20 的可登上每周更新的“...

1
17
发表了资讯
2017/05/09 07:29

Apache Arrow 0.3.0 发布,内存数据交换格式

Apache Arrow 是 Apache 基金会下一个全新的开源项目,同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。 Apache Arrow 0.3.0 是自今年2月份发布 0.2.0 以来,经过10周的紧张开发,带来的最新版本。包括 306 个已解决的 JIRA 。 0.3.0 用二进制格式巩固了一些小细节,改进了集成和单元测试,特别是针对 Java、C ++ 和 Python 库。使用 Google Flatbuffers 项目有助于在元数据中添加新功能,...

0
14
发表了资讯
2017/02/20 07:50

Apache Arrow 0.2.0 发布,内存数据交换格式

Apache Arrow 0.2.0 发布了。该版本解决了自第一个版本以来的 192 个 issue。Apache Arrow 是 Apache 基金会下一个全新的开源项目,同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。 这个版本是项目的一个重要里程碑,因为我们现在有集成测试验证 Java 和 C ++(和 Python)实现之间的二进制兼容性,这些测试现在正在 Travis CI 中连续运行。 其他值得关注的更新亮点: A new streaming bi...

2
10
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
3 评论
111 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部
返回顶部
顶部