Apache Spark

开源集群计算环境 Apache Spark

BSD
Scala 查看源码»
跨平台
Apache
2012-01-05
bear256

Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoo 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

一个简单的计算:

file = spark.textFile("hdfs://...")
 
file.flatMap(line => line.split(" "))
    .map(word => (word, 1))
    .reduceByKey(_ + _)
的码云指数为
超过 的项目
加载中

评论(5)

阿伏流
阿伏流
重名了吧Spark Google Spark
whatcq
whatcq
高性能 大数据 分布式 。。高大上 #Apache Spark#
t
tanyaobin
spark 1.6.1发布了 #Apache Spark#
fushengxu
fushengxu

NVIDIA 合作开源社区,将 GPU 加速带入 Spark 3.0

NVIDIA 方面宣布与开源社区达成合作,为 Apache Spark 3.0 带来端到端的 GPU 加速。 Apache Spark 3.0 是一种用于大数据处理的分析引擎,目前已被全球超过 500,000 名数据科学家所使用。 按照...

05/17 08:46

Apache Spark 2.4.4 发布, 开源集群计算环境

Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数...

2019/09/09 07:30

Spark 2.4 发布,大规模数据处理统一分析引擎

Spark 2.4 发布了,Apache Spark 是用于大规模数据处理的统一分析引擎,它是一种与 Hadoop 相似的开源集群计算环境,Spark 启用了内存分布数据集,除了能够提供交互式查询外,还可以优化迭代...

2018/11/11 07:15

Apache Spark 2.3.0 正式发布,改进可用性和稳定性

Apache Spark 2.3.0 正式发布,这也是 2.x 系列中的第四个版本。此版本增加了对 Structured Streaming 中的 Continuous Processing 以及全新的 Kubernetes Scheduler 后端的支持。其他主要更...

2018/03/01 17:49

Apache Spark 2.2.0 正式发布,提高可用性和稳定性

Apache Spark 2.2.0 正式发布,这也是 2.x 系列的第三个版本。此版本移除了 Structured Streaming 的实验标记(experimental tag),意味着已可以放心在线上使用。 该版本的主要更新内容主要...

2017/07/12 18:08

Spark 2.0 时代全面到来 —— 2.0.1 版本发布

距离Spark 2.0.0发布两个月后,Spark 2.0.1版本发布了,这是一个修正版本,共处理了300多个Issue,涉及spark稳定性和bug等方面的修复 ,它的发布意味着Spark 2.0接近生产环境使用要求,想要尝...

2016/10/08 08:31

Spark 体系架构

最近看到一篇关于Spark架构的博文,作者是 Alexey Grishchenko。看过Alexey博文的同学应该都知道,他对Spark理解地非常深入,读完他的 “spark-architecture” 这篇博文,有种醍醐灌顶的感觉...

2016/09/03 08:12

Apache Spark 2.0.0 发布,APIs 更新

Apache Spark 2.0.0 发布了,Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句...

2016/07/28 14:38

新手入门:Spark 部署实战入门

Spark简介 整体认识 Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。 Spark在整...

2016/07/05 20:00

Apache Spark 1.6.2 发布,集群计算环境

Apache Spark 1.6.2 发布了,Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句...

2016/06/28 10:58

没有更多内容

加载失败,请刷新页面

1
回答
SparkException: No port number in pyspark.daemon's stdout , pyspark提交到yarn上报错了

Error from python worker: : No module named pyspark PYTHONPATH was: /data/yar...

2019/12/09 18:24
1
回答
Can't get Master Kerberos principal for use as renewer     a

n" java.io.IOException:Can't get Master Kerberos principal for use as renewer...

03/06 14:13
3
回答
Spark on yarn 在创建Hbase的Connection时,报 ClassNotFoundException

ConnectionFactory.createConnection(configuration) 在执行以上方法时候报的错误: Caused by: j...

05/09 11:02
1
回答
pyspark提交任务到yarn上报错了, IllegalStateException: User did not initialize spark context!
tcxu 的回答 04/04 11:27
最佳答案
出现这种情况的原因是在IDEA中编写程序时,加入了如下代码: 参看: spark-submit报错java.lang.IllegalStateException: User did not initialize spark context!
3
回答
Unrecognized Hadoop major version number: 3.0.0-cdh6.3.0

Caused by: java.lang.ExceptionInInitializerError at org.apache.hadoop.hive.co...

03/12 10:05
23
回答
详细介绍 Apache Licene 2.0 协议

Apache Licence是著名的非盈利开源组织Apache采用的协议。该协议和BSD类似,同样鼓励代码共享和尊重原作者的著作权,同样允许代码修改,再发...

2009/11/30 21:20
1
回答
sql.SQLException: No suitable driver 报错了,咋整

r: Started o.s.j.s.ServletContextHandler@f25f48a{/static/sql,null,AVAILABLE,@...

03/24 17:38
2
回答
javax.crypto.IllegalBlockSizeException: Data must not be longer than 256 bytes
梁家河的扛麦人 的回答 02/26 11:43
最佳答案
你可以使用这个帖子里面的实现类。里面有对分段加密的api。 https://springboot.io/t/topic/66

没有更多内容

加载失败,请刷新页面

Spark认识&环境搭建&运行第一个Spark程序

摘要:Spark作为新一代大数据计算引擎,因为内存计算的特性,具有比hadoop更快的计算速度。这里总结下对Spark的认识、虚拟机Spark安装、Spark开发环境搭建及编写第一个scala程序、运行第一个...

2018/07/16 14:41
47
0
Spark学习之Spark安装

Spark安装 spark运行环境 spark是Scala写的,运行在jvm上,运行环境为java7+ 如果使用Python的API ,需要使用Python2.6+或者Python3.4+ Spark1.6.2 - Scala 2.10 Spark 2.0.0 - Scala 2.11 S...

2018/02/19 18:21
68
0
Spark SQL / Catalyst 内部原理 与 RBO

原创文章,转载请务必将下面这段话置于文章开头处。 本文转发自技术世界,原文链接 http://www.jasongj.com/spark/rbo/ 本文所述内容均基于 2018年9月10日 Spark 最新 Release 2.3.1 版本。...

2018/09/11 07:52
27
0
Spark源码分析调试环境搭建

目前常用的Spark版本有三种Cloudera、HDP和Apache,源码的获取方式可以在各自官网下载。本文选择Apache版本。 搭建环境所需要的工具如下: CentOS 7 maven 3.5.0 Java 1.8.0 Scala 2.12.2 I...

2017/10/26 15:42
193
0
[转] Spark快速入门指南 – Spark安装与基础使用

[From] https://blog.csdn.net/w405722907/article/details/77943331 Spark快速入门指南 – Spark安装与基础使用 2017年09月12日 11:35:27 阅读数:104 本教程由给力星出品,转载请注明。 Ap...

2018/07/27 16:47
22
0
IDEA导入spark源代码调试

获取源码 官网下载源码到本地后,需要先进行编译,参考官方文档,编译很简单,这里使用4个线程,跳过tests,以此加速编译。这个编译会产生一些必要的源代码,如Catalyst项目下的,所以是必要...

2017/10/26 14:55
1K
0
Spark的39个机器学习库-英文

场景:Spark的39个机器学习库

2015/11/04 23:12
450
0
spark导入在idea中运行

本文主要介绍在window平台上,spark官方代码例子直接在idea中运行和测试。 1、saprk官网(http://spark.apache.org/downloads.html)下载spark 2.3.2,并解压在D:\project\idea_spark\spark-2...

2019/01/22 16:40
1K
0
MaxCompute Spark开发指南

0. 概述 本文档面向需要使用MaxCompute Spark进行开发的用户使用。本指南主要适用于具备有Spark开发经验的开发人员。 MaxCompute Spark是MaxCompute提供的兼容开源的Spark计算服务,它在统一...

2019/03/11 15:56
9
0
SPark SQL编程初级实践

今下午在课上没有将实验做完,课下进行了补充,最终完成。下面附上厦门大学数据库实验室中spark实验官网提供的标准答案,以供参考。 三、实验内容和要求 1.Spark SQL 基本操作 将下列 json...

2019/03/26 22:14
17
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部