开源集群计算环境 Apache Spark

开源集群计算环境 Apache Spark

BSD
Scala 查看源码»
跨平台
Apache
2012-01-05
bear256

Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoo 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

一个简单的计算:

file = spark.textFile("hdfs://...")
 
file.flatMap(line => line.split(" "))
    .map(word => (word, 1))
    .reduceByKey(_ + _)
的码云指数为
超过 的项目
加载中

评论(5)

fushengxu
fushengxu
t
tanyaobin
spark 1.6.1发布了 #Apache Spark#
whatcq
whatcq
高性能 大数据 分布式 。。高大上 #Apache Spark#
阿伏流
阿伏流
重名了吧Spark Google Spark

Spark 2.4 发布,大规模数据处理统一分析引擎

Spark 2.4 发布了,Apache Spark 是用于大规模数据处理的统一分析引擎,它是一种与 Hadoop 相似的开源集群计算环境,Spark 启用了内存分布数据集,除了能够提供交互式查询外,还可以优化迭代...

2018/11/11 07:15

Apache Spark 2.3.0 正式发布,改进可用性和稳定性

Apache Spark 2.3.0 正式发布,这也是 2.x 系列中的第四个版本。此版本增加了对 Structured Streaming 中的 Continuous Processing 以及全新的 Kubernetes Scheduler 后端的支持。其他主要更...

2018/03/01 17:49

Apache Spark 2.2.0 正式发布,提高可用性和稳定性

Apache Spark 2.2.0 正式发布,这也是 2.x 系列的第三个版本。此版本移除了 Structured Streaming 的实验标记(experimental tag),意味着已可以放心在线上使用。 该版本的主要更新内容主要...

2017/07/12 18:08

Spark 2.0 时代全面到来 —— 2.0.1 版本发布

距离Spark 2.0.0发布两个月后,Spark 2.0.1版本发布了,这是一个修正版本,共处理了300多个Issue,涉及spark稳定性和bug等方面的修复 ,它的发布意味着Spark 2.0接近生产环境使用要求,想要尝...

2016/10/08 08:31

Spark 体系架构

最近看到一篇关于Spark架构的博文,作者是 Alexey Grishchenko。看过Alexey博文的同学应该都知道,他对Spark理解地非常深入,读完他的 “spark-architecture” 这篇博文,有种醍醐灌顶的感觉...

2016/09/03 08:12

Apache Spark 2.0.0 发布,APIs 更新

Apache Spark 2.0.0 发布了,Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句...

2016/07/28 14:38

新手入门:Spark 部署实战入门

Spark简介 整体认识 Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。 Spark在整...

2016/07/05 20:00

Apache Spark 1.6.2 发布,集群计算环境

Apache Spark 1.6.2 发布了,Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句...

2016/06/28 10:58

Spark 2.0 预览:更简单,更快,更智能

Apache Spark 2.0 技术预览在 Databricks Community Edition 发布。该预览包使用upstream branch-2.0构建,当启动Cluster时,使用预览包和选择“2.0 (Tech Preview)” 一样简单。 离最终的A...

2016/05/12 09:35

没有更多内容

加载失败,请刷新页面

6
回答
请教南京的小伙伴:java开发或者大数据开发环境怎么样

请教南京的小伙伴:java开发或者大数据开发环境怎么样(薪资、福利等)?有哪些好公司可以考虑?12年2月至今一直在深圳,前3年纯java,后4年java和...

02/12 10:03
2
回答
spark 出现很严重的数据倾斜,跑批时间很长,有时候会导致java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE报错

目前在开发一个统计指标的脚本,跑批出现了严重的数据倾斜, 有时候报java.lang.IllegalArgumentException: Size exc...

02/20 17:22
1
回答
spark+lucene 构建大数据存查的可行性

@震秦 你好,想跟你请教个问题:希望构建一个千亿级别的大数据存查系统 希望能做到复杂查询的快速响应 个人倾向于lucene系列(Lucene solr e...

01/15 12:10
2
回答
spark streaming中报kafka的offset错误,如何解决

java.lang.AssertionError: assertion failed: Beginning offset 19309438 is afte...

2016/03/02 14:11
4
回答
自学了Spark,找到了实习,但是部门里没有人带,很多异常处理不了怎么办。

自学了Spark和Hadoop,但是没有工作经验,找到了一份相关的实习,但是部门里没有人会这个技术,没有人带,现在写代码经常遇到异常,不知道该怎么处理,请...

1
回答
sparkStreaming中使用redis造成连接数高居不下的问题

在sparkStreaming中使用redis,创建jedisPool线程池,然后使用完毕后,通过jedis.close关闭连接,送回连接池,使用的是单例...

2018/10/31 15:42
9
回答
Java工程师发展问题

各位oscer大牛好,我做Java工程师大约有4个年头了,4年除Java外还学习了python、scala、hadoop、spark、这些东西,但都没有实...

2018/11/21 10:24
1
回答
您好,请问对于Kylin的执行引擎,若用Spark来完成,是否有相关的接口,可以手工写Spark代码来完成?

@shaofengsh 你好,想跟你请教个问题:Apache Kylin的官方文档中,有关接口的描述并不多,我想问的是,二次开发是否只能根据提供的接口来完...

2018/11/26 14:15
1
回答
CDH5.7.6安装spark时出现目录不存在的问题

环境:CDH5.7.6 图一中明明是创建了,图二中却说找不到,这个问题有点奇怪。后来我手动创建,手动chmod,chown给spark:spark,仍然报...

2018/10/30 14:23

没有更多内容

加载失败,请刷新页面

在 Databricks 可获得 Spark 1.5 预览版

我们兴奋地宣布,从今天开始,Apache Spark1.5.0的预览数据砖是可用的。我们的用户现在可以选择提供集群与Spark 1.5或先前的火花版本准备好几个点击。 正式,Spark 1.5预计将在数周内公布,和社区...

2015/08/25 14:06
59
0
Integrating Kafka and Spark Streaming

Spark Streaming is a sub-project of Apache Spark. Spark is a batch processing platform similar to Apache Hadoop, and Spark Streaming is a real-time processing tool that runs on ...

2015/05/05 12:16
54
0
IDEA导入spark源代码调试

获取源码 官网下载源码到本地后,需要先进行编译,参考官方文档,编译很简单,这里使用4个线程,跳过tests,以此加速编译。这个编译会产生一些必要的源代码,如Catalyst项目下的,所以是必要...

2017/10/26 14:55
141
0
spark导入在idea中运行

本文主要介绍在window平台上,spark官方代码例子直接在idea中运行和测试。 1、saprk官网(http://spark.apache.org/downloads.html)下载spark 2.3.2,并解压在D:\project\idea_spark\spark-2...

01/22 16:40
8
0
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第四步)(7)

关于【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第四步)(7)

2014/09/25 14:25
318
0
Spark源码分析调试环境搭建

目前常用的Spark版本有三种Cloudera、HDP和Apache,源码的获取方式可以在各自官网下载。本文选择Apache版本。 搭建环境所需要的工具如下: CentOS 7 maven 3.5.0 Java 1.8.0 Scala 2.12.2 I...

2017/10/26 15:42
29
0
pycharm pyspark 配置

1 、安装了pycharm,下载spark(官网下载,我下的是spark-2.1.1-bin-hadoop2.7.tgz,解压缩后为文件夹spark-2.1.1-bin-hadoop2.7,我将文件放在了/Applications/spark/下,这个文件夹里面有p...

2018/05/09 20:30
171
0
MaxCompute Spark开发指南

0. 概述 本文档面向需要使用MaxCompute Spark进行开发的用户使用。本指南主要适用于具备有Spark开发经验的开发人员。 MaxCompute Spark是MaxCompute提供的兼容开源的Spark计算服务,它在统一...

03/11 16:03
1
0
Spark的39个机器学习库-英文

场景:Spark的39个机器学习库

2015/11/04 23:12
378
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部