Apache Spark 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
Apache Spark 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
Apache Spark 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 BSD
开发语言 Scala 查看源码 »
操作系统 跨平台
软件类型 开源软件
开源组织 Apache
地区 不详
投 递 者 bear256
适用人群 未知
收录时间 2012-01-05

软件简介

Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoo 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

一个简单的计算:

file = spark.textFile("hdfs://...")
 
file.flatMap(line => line.split(" "))
    .map(word => (word, 1))
    .reduceByKey(_ + _)
展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击加入讨论🔥(5)
2021/09/11 08:29

AWS、微软参投 Databricks 的 16 亿美元融资

Databricks 宣布最终结束其近期进行的金额达 16 亿美元的 H 系列融资。并新披露了一个细节,即,该行业的三个顶级云供应商 AWS、微软、以及 CapitalG(Alphabet 旗下资产增长型的投资组合部门)都参与了此轮投资。Databricks 成立于 2013 年,是大型数据分析工具的头部供应商之一;以其基于开源的 Apache Spark 大数据框架的统一数据分析平台而闻名。 AWS、微软和谷歌母公司 Alphabet 支持同一家创业公司的情况并不常见。根据介...

0
1
发表于AI & 大数据专区
2021/03/05 07:13

Apache Spark 3.1 发布

Apache Spark 3.1 作为 Databricks Runtime 8.0 的一部分已正式发布,这也是 Apache Spark 3.x 系列的第二个 release。开发团队表示,为了让 Spark 更快、更方便使用以及更智能,Spark 3.1 对以下特性进行了扩展: Python 可用性 ANSI SQL 合规性 查询优化增强 改进 Shuffle hash join History Server 对结构化流数据的支持 下面简单介绍部分高级的新功能和改进。 Project Zen Project Zen 启动于此版本,主要从以下三个方面改进...

1
4
发表于服务端专区
2020/06/22 07:30

Apache Spark 3.0 发布

Databricks 上周发布了 Apache Spark 3.0,并将此作为新版 Databricks Runtime 7.0 的一部分。3.0.0 版本包含 3400 多个补丁,为 Python 和 SQL 功能带来了重大进展。 Spark 是用于大数据处理,数据科学,机器学习和数据分析等领域的统一引擎。 Spark 3.0 重要变化: 与 Spark 2.4 相比,TPC-DS 的性能提升了2倍,主要通过自适应查询执行、动态分区修剪和其他优化实现 兼容 ANSI SQL 针对 pandas API 的重大改进,包括 Python 类...

7
11
2020/05/17 08:46

NVIDIA 合作开源社区,将 GPU 加速带入 Spark 3.0

NVIDIA 方面宣布与开源社区达成合作,为 Apache Spark 3.0 带来端到端的 GPU 加速。 Apache Spark 3.0 是一种用于大数据处理的分析引擎,目前已被全球超过 500,000 名数据科学家所使用。 按照计划,随着 Spark 3.0 于春季晚些时候发布,数据科学家和机器学习工程师将首次能够把革命性的 GPU 加速应用于普遍使用 SQL 数据库操作进行的 ETL(提取、转换和加载)数据处理工作负载中。 此外,AI 模型训练将能够在相同的 Spark 集群上...

7
9
发表于开发技能专区
2019/09/09 07:30

Apache Spark 2.4.4 发布, 开源集群计算环境

Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。 2.4.4 版本包含稳定性修复的维护版本,内容如下: 修复十进制 toScalaBigInt/toJavaBigInteger 表示不适合长的十进制的问题 修复 PushProjectionThroughUnion 可空性问题 ...

1
3
发表于AI & 大数据专区
2018/11/11 07:15

Spark 2.4 发布,大规模数据处理统一分析引擎

Spark 2.4 发布了,Apache Spark 是用于大规模数据处理的统一分析引擎,它是一种与 Hadoop 相似的开源集群计算环境,Spark 启用了内存分布数据集,除了能够提供交互式查询外,还可以优化迭代工作负载。尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoo 文件系统中并行运行。 此版本继续关注可用性、稳定性和性能优化,同时解决了大约 1100 个 tickets。主要更新如下: 增加了...

0
11
发表于开发技能专区
2018/03/01 17:49

Apache Spark 2.3.0 正式发布,改进可用性和稳定性

Apache Spark 2.3.0 正式发布,这也是 2.x 系列中的第四个版本。此版本增加了对 Structured Streaming 中的 Continuous Processing 以及全新的 Kubernetes Scheduler 后端的支持。其他主要更新包括新的 DataSource 和 Structured Streaming v2 API,以及一些 PySpark 性能增强。 此外,此版本继续针对项目的可用性、稳定性进行改进,并持续润色代码。 各项更新具体细节,请查阅发行说明: https://spark.apache.org/releases/sp...

2
4
发表了资讯
2017/07/12 18:10

Apache Spark 2.2.0 正式发布,提高可用性和稳定性

Apache Spark 2.2.0 正式发布,这也是 2.x 系列的第三个版本。此版本移除了 Structured Streaming 的实验标记(experimental tag),意味着已可以放心在线上使用。 该版本的主要更新内容主要针对的是系统的可用性、稳定性以及代码润色。包括: Core 和 Spark SQL 的 API 升级和性能、稳定性改进,比如支持从 Hive metastore 2.0/2.1 中读取数据;支持解析多行的 JSON 或 CSV 文件;移除对 Java 7 的支持;移除对 Hadoop 2.5 及更...

7
12
发表了资讯
2016/10/08 00:00

Spark 2.0 时代全面到来 —— 2.0.1 版本发布

距离Spark 2.0.0发布两个月后,Spark 2.0.1版本发布了,这是一个修正版本,共处理了300多个Issue,涉及spark稳定性和bug等方面的修复 ,它的发布意味着Spark 2.0接近生产环境使用要求,想要尝试Spark 2.0的可以动手了。 Apache Spark 2.0是基于spark branch-2.x 开发的,相比于branch-1.0,它在功能和性能等方面均有巨大改进。在性能方面,Spark 2.x 有2~10倍的提升;在功能方面,Spark SQL中的Dataset变得成熟,Spark 2.x通过D...

22
39
发表了资讯
2016/09/03 00:00

Spark 体系架构

最近看到一篇关于Spark架构的博文,作者是 Alexey Grishchenko。看过Alexey博文的同学应该都知道,他对Spark理解地非常深入,读完他的 “spark-architecture” 这篇博文,有种醍醐灌顶的感觉,从JVM内存分配到Spark集群的资源管理,步步深入,感触颇多。因此,在周末的业余时间里,将此文的核心内容译成中文,并在这里与大家分享。如在翻译过程中有文字上的表达纰漏,还请大家指出。 首先来看一张Spark 1.3.0 官方给出的图片,如...

44
145
发表了资讯
2016/07/28 00:00

Apache Spark 2.0.0 发布,APIs 更新

Apache Spark 2.0.0 发布了,Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。 该版本主要更新APIs,支持SQL 2003,支持R UDF ,增强其性能。300个开发者贡献了2500补丁程序。 Apache Spark 2.0.0 APIs更新记录如下: Unif...

22
45
发表了资讯
2016/07/05 00:00

新手入门:Spark 部署实战入门

Spark简介 整体认识 Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。 Spark在整个大数据系统中处于中间偏上层的地位,如下图,对hadoop起到了补充作用: 基本概念 Fork/Join框架是Java7提供了的一个用于并行执行任务的框架, 是一个把大任务分割成若干个小任务,最终汇总每个小任务结果后得到大任务结果的框架。 第一...

5
144
发表了资讯
2016/06/28 00:00

Apache Spark 1.6.2 发布,集群计算环境

Apache Spark 1.6.2 发布了,Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。 Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地...

1
14
发表了资讯
2016/05/12 00:00

Spark 2.0 预览:更简单,更快,更智能

Apache Spark 2.0 技术预览在 Databricks Community Edition 发布。该预览包使用upstream branch-2.0构建,当启动Cluster时,使用预览包和选择“2.0 (Tech Preview)” 一样简单。 离最终的Apache Spark 2.0发布还有几个星期,现在先来看看有什么新特性: 更简单:SQL和简化的API Spark 2.0依然拥有标准的SQL支持和统一的DataFrame/Dataset API。但我们扩展了Spark的SQL 性能,引进了一个新的ANSI SQL解析器并支持子查询。Spark...

6
49
发表了资讯
2016/03/11 00:00

Apache Spark 1.6.1 发布,集群计算环境

Apache Spark 1.6.1 发布了,Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。 Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地...

8
19
发表了资讯
2016/02/29 00:00

Apache Spark 2.0 最快今年4月亮相

1月才刚释出1.6版的大数据技术Spark,下一个2.0版本预计4、5月释出,将提供可运行在SQL/Dataframe上的结构化串流即时引擎,并统一化Dataset及DataFrame 大数据技术Spark今年1月才刚释出1.6版,下一个2.0版本就已经蓄势待发,预计今年4、5月释出,近日Spark创办人、同时也是 Databricks技术长的Matei Zaharia,更在2016 Spark Summit上,抢先揭露了Spark 2.0即将带来的3大主要特色:包括能大幅提升Spark平台效能的Project Tungs...

16
25
发表了资讯
2016/01/05 00:00

Apache Spark 1.6 正式发布,性能大幅度提升

Apache Spark 1.6 正式发布,Spark 1.6 包含 1000+ 分支,主要是三个大方面的改进:性能提升,新的 Dataset API 和数据科学功能的扩展。这是社区开发非常重要的一个里程碑:Spark 贡献者人数突破 1000 人,比 2014 年多一倍。 性能提升 根据 Apache Spark 官方 2015 年 Spark Survey,有 91% 的用户想要提升 Spark 的性能。 Parquet 性能 自动化内存管理 流状态管理速度提升 10X Dataset API Spark 团队引入了 DataFrames。 新的...

9
42
发表了资讯
2015/12/21 00:00

Apache Spark 1.6 预览版:更简便的搜索

日前,Databricks公司发布了一个Apache Spark主要版本的可用性。除了可用性、可移植性等几个新的特性外,本次发布还提供了对尚未发布的Apache Spark 1.6预览。Databricks用户有机会在官方发布之前试用Spark 1.6的特性,包括在Databricks集成空间内轻松搜索Spark文档、点击几个按钮便能在不同Databricks实例间共享Databricks的notebooks。在本博文中,将对这些令人兴奋的新特性提供一个简短的介绍。 Apache Spark 1.6预览 Patric...

4
20
发表了资讯
2015/11/16 00:00

Apache Spark 1.5.2 发布,开源集群计算环境

Apache Spark 1.5.2 发布,此版本是个维护版本,包括 Spark 一些领域的稳定性修复,主要是:DataFrame API, Spark Streaming, PySpark, R, Spark SQL 和 MLlib。详细改进内容请看更新日志。 Spark 1.5.2 现已提供下载。 Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提...

2
26
发表了资讯
2015/10/05 00:00

Apache Spark 1.5.1 发布,开源集群计算环境

Apache Spark 1.5.1 发布, 详细更新信息请查看: http://s.apache.org/spark-1.5.1 下载地址如下: http://spark.apache.org/downloads.html Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。 Spark 是在 Scala 语言中实现...

1
13
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
5 评论
651 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部