2014/09/24 10:16

【互动问答分享】第13期决胜云计算大数据时代Spark亚太研究院公益大讲堂

关于【互动问答分享】第13期决胜云计算大数据时代Spark亚太研究院公益大讲堂

0
1
发表于开源治理专区
07/06 22:47

【免费票抢票贴】2015阿帕奇路演之讲师抢先看#6天倒计时,10月24-25号不见不散#

NOW!!!赠票福利来啦~ 赠票活动开始啦~这篇文章为【免费票抢票贴】哦~前十名带评论分享此文章到朋友圈,分享成功后将截图发至开源社公众号的分享者就会获得免费大会门票一张哦!!! 当当当!从今天开始本公众号...

0
0
发表于云计算专区
2015/09/13 14:46

Spark 编译

1.编译环境 CentOS6.6 JDK1.7.0_80 Maven3.2.5 2.下载Spark源代码并解压 [yyl@vmnode ~]$ pwd /home/yyl [yyl@vmnode make]$ pwd /home/yyl/make [yyl@vmnode make]$ wget http://mirrors.cnnic.cn/apache/spark/spark-1.5.0/spark-1.5.0.tgz [yyl@vmnode make]$ tar -zxf spark-1.5.0.tgz 3.编译 解压后的源码包的根目录...

1
3
发表于云计算专区
2015/12/30 17:42

Spark亚太研究院决胜大数据时代公益大讲堂

作为下一代云计算大数据的核心技术,Spark性能超Hadoop百倍,算法实现仅有其1/10或1/100,是可以革命Hadoop的目前唯一替代者,能够做Hadoop做的一切事情,同时速度比Hadoop快了100倍以上。目前Spark已经构建了自己的整个大数据处理生态系统,国外一些大型互联网公司已经部署了Spark。甚至连Hadoop的早期主要贡献者Yahoo现...

0
0
04/20 10:31

这些存储初创公司谁能走的更远?

存储圈儿从来都很热闹,这几天看见了这么一篇外电,这里列出了几个在2015年截止当前有过融资动态的9家存储公司,这些存储初创公司个个创业点都有所不同,方向不同,押注不同。把这些贴在这里给大家看,或许他们其...

0
0
发表了博客
2014/12/23 10:58

Spark1.X视频教程完整版下载

Spark1.X大数据2014年最新教程,一共10周,48课时

0
4
发表于云计算专区
2015/12/23 13:47

解析Spark大数据分析框架的核心部件

Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、SparkR计算引擎等主要部件,这里做一个简单的介绍。 一、RDD内存数据结构 大数据分析系统一般包括数据获取、数据清洗、数据处理、数据分析、报表...

0
0
发表了博客
2015/08/07 11:55

Spark大数据分析框架的核心部件

Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、SparkR计算引擎等主要部件。这里做一个简单的介绍。

1
9
发表了博客
2016/07/18 15:11

spark RDD持久化

RDD持久化介绍 Spark最重要的一个功能是它可以通过各种操作(operations)持久化(或者缓存)一个集合到内存中。当你持久化一个RDD的时候,每一个节点都将参与计算的所有分区数据存储到内存中,并且这些数据可以被这个集合(以及这个集合衍生的其他集合)的动作(action)重复利用。这个能力使后续的动作速度更快(通常快...

0
0
发表了博客
2016/03/10 10:39

Top Spark Ecosystem Projects(英)

Apache Spark has developed a rich ecosystem, including both official and third party tools. We have a look at 5 third party projects which complement Spark in 5 different ways. By Matthew Mayo, KDnuggets. Apache Spark is now the largest open source data processing project, with more than 750 cont...

0
2
发表了博客
2019/05/05 20:45

Spark(四十六):Spark 内存管理之—OFF_HEAP

存储级别简介 Spark中RDD提供了多种存储级别,除去使用内存,磁盘等,还有一种是OFF_HEAP,称之为 使用JVM堆外内存 https://github.com/apache/spark/blob/branch-2.4/core/src/main/scala/org/apache/spark/storage/StorageLevel.scala 使用OFF_HEAP的优点:在内存有限时,可以减少频繁GC及不必要的内存消耗(减少内存的...

0
0
2015/10/19 17:15

命令行接口(译)

整合 Tachyon 运行 Spark,原文地址:http://www.tachyon-project.org/documentation/Command-Line-Interface.html 如译文有误,请指正。

0
1
发表于开源治理专区
05/22 12:23

2015阿帕奇路演 - 中国(社区主导开发)#9天倒计时,10月24-25号不见不散#

点击【阅读原文】“我要参加”! 在开源社的努力之下,全球最大的开源软件基金会 Apache Software Foundation(目前有超过200个以上的项目,从20年前起步的 Apache HTTP Server,到目前最火爆的云计算(Mesos,C...

0
0
发表了博客
2016/07/17 10:43

Hive的简介

大数据技术框架 数据存储:HDFS:分布式文件存储系统(基于磁盘),包括存储安全性;Tachyon(可拓展了解部分,基于内存的分布式文件存储系统),一般会将Tachyon架构在hdfs与计算框架之间,一些不需要落地到hdfs磁盘上的数据,可以落地在内存中,达到共享内存的目的 数据分析:MapReduce:离线批处理计算框架;YARN:任...

0
0
发表于开源治理专区
07/24 11:47

2015阿帕奇路演 - 中国(社区主导开发)#8天倒计时,10月24-25号不见不散#

点击【阅读原文】“我要参加”! 在开源社的努力之下,全球最大的开源软件基金会 Apache Software Foundation(目前有超过200个以上的项目,从20年前起步的 Apache HTTP Server,到目前最火爆的云计算(Mesos,C...

0
0
发表了博客
09/12 10:11

大数据Spark生态圈,进击Spark生态圈必备,迈向“高薪”的基石

1、简介 1.1 Spark简介 Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了Spark SQL、Spark Str...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页