Spark部署及技术选型

Spark亚太研究院 发布于 2014/07/01 13:21
阅读 2K+
收藏 12

Spark部署及技术选型

在飞速发展的云计算大数据时代,Spark是继Hadoop之后,成为替代Hadoop的下一代云计算大数据核心技术,目前Spark已经构建了自己的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等方面都有自己的技术,并且是Apache顶级Project,可以预计的是2014年下半年到2015Spark在社区和商业应用上会有爆发式的增长。

Spark在业界的使用案例

       Spark是最新一代的大数据处理框架,在数据统计分析、数据挖掘、流处理、图技术、机器学习、误差查询等方面都有自己的技术,从我们的技术研究和长期业界观察来看,Spark会成为大数据时代集大成的计算框架。随着2014530Spark  1.0.0的发布,Spark已经相对稳定,可以放心使用。       

      Spark技术在国内外的应用开始越来越广泛,它正在逐渐走向成熟,并在这个领域扮演更加重要的角色。国外一些大型互联网公司已经部署了Spark。例如:一直支持Hadoop的四大商业机构(Cloudera、MapR、Hortonworks、EMC)已纷纷宣布支持Spark;Mahout前一阶段也表示,将不再接受任何形式以MapReduce实现的算法,同时还宣布了基于Spark新的算法;而Cloudera的机器学习框架Oryx的执行引擎也将由Hadoop的MapReduce替换成Spark;另外,Google也已经开始将负载从MapReduce转移到Pregel和Dremel上;FaceBook也宣布将负载转移到Presto上……而目前,我们国内的淘宝、优酷土豆、网易、Baidu、腾讯等企业也已经使用Spark技术在自己的商业生产系统中。


Spark如何部署到生产环境

       对于Spark该如何部署到生产环境中,Spark亚太研究院院长和首席专家王家林介绍,Spark是最新一代大数据计算框架,使用时需要单独部署集群,Spark集群部署方式主要有三种:StandaloneYarnMesos。一般而言,在部署的时候都会基于HDFS文件存储系统,所以,如果已经有Hadoop平台,部署Spark就非常容易,只需在平台上增加Spark功能即可。目前,国内企业淘宝使用的Spark就是基于Hadoopyarn。当然也可以采用standalonezookeeper的方式进行从无到有的构建Spark集群,这也是一种常见和理想的选择,并且这种方式也是官方推荐的。

企业如何做云计算大数据部署的技术选型

现在,谈到云计算大数据话题的时候很多人还是多会提到Hadoop,对Spark了解的人还不是很多,如果企业有计划要部署云计算大数据的话,如何做技术选型是很重要的。对此,Spark亚太研究院院长和首席专家王家林给出了如下建议:

       如果企业以前没有云计算大数据集群,选择使用Spark要比Hadoop更为明智,原因是:首先,Hadoop本身的计算模型决定了它的所有工作都要转化成MapShuffleReduce等核心阶段,由于每次计算都要从磁盘读或者写数据,而且整个计算模型需要网络传输,这就导致越来越难以忍受的延迟性。其次,Hadoop还不能支持交互式应用。而Spark可以轻松应对数据统计分析、数据挖掘、流处理、图技术、机器学习、误差查询等,且Spark的“One stack  rule them all”的特性也导致部署的简易性,省去多套系统部署的麻烦。

       如果技术选型为Spark,那么,解决数据统计分析、实时流计算、数据挖掘基本只需要一个团队即可,而如果采用Hadoop则需要不同团队做处理每一项专门的技术,极大的增加人力成本。

       另外,对于已经有Hadoop集群的公司而言,建议尝试使用Spark技术,可以从SparkShark或者Spark SQL开始,推荐使用Spark的实时流处理和机器学习技术。

Spark趋势,中型企业如何抉择

       Spark因其部署的简易性和“One stack  to rule them all”的特点,是大数据时代中型企业处理大数据的福音。例如,Yahoo!、淘宝、优酷土豆、网易、腾讯等国内大型知名企业已经在商业生产环境下开始使用Spark技术;IntelIBMLinkinTwwitter等国外大型知名企业也都在大力支持Spark。随着这些国内外大企业的使用,Spark技术的发展必然势不可挡,行业普及很快就会到来,因此对于中型企业的使用和普及,只是时间问题。中型公司如果要基于Spark进行部署,只需配备约5-20人的团队,即可在Spark上做数据分析统计、机器学习、实施流处理计算等工作。

       对于电信、金融等行业,使用Spark同样势不可挡。在数据统计分析方面,SparkHadoop快几十倍,如果是使用内存表,Spark更是比Hadoop100倍以上。同时Spark的实时流处理、机器学习、图计算也非常高效,可以充分满足电信、金融行业数据挖掘的需要。

作为唯一可以革命Hadoop并正在成为大数据计算框架霸主的Spark技术,由于其“One stack to rule them all”的特性(使用一个统一的技术堆栈解决了大数据处理生态系统中的流处理、图技术、机器学习、NoSQL查询等方面的技术问题),在201410月左右会在中国的需求有爆发之势,这种需求包含企业使用Spark的需求和Spark人才的迫切需求,同时,这种需求将不限已经使用SparkYahoo!、淘宝、腾讯、网易等国内大型企业,还会包含很多中小企业。

 

加载中
0
大连馋师
大连馋师
已经到了2014年10月,大家拭目以待!
0
墨文
墨文
是不是有点夸大其词了?
0
矮穷挫
矮穷挫
深入浅出Spark机器学习实战(用户行为分析)
课程观看地址:http://www.xuetuwuyou.com/course/144
课程出自学途无忧网:http://www.xuetuwuyou.com

一、课程目标
 熟练掌握SparkSQL的各种操作,深入了解Spark内部实现原理
 深入了解SparkML机器学习各种算法模型的构建和运行
 熟练Spark的API并能灵活运用
 能掌握Spark在工作当中的运用


二、适合人群
 适合给,有java,scala基础,想往大数据spark机器学习这块发展
 适合给想学习spark,往数据仓库,大数据挖掘机器学习,方向发展的学员


三、课程用到的软件及版本:
Spark2.0,Spark1.6.2,STS,maven,Linux Centos6.5,mysql,mongodb3.2


四、课程目录:

课时1:Spark介绍 
课时2:Spark2集群安装 
课时3:Spark RDD操作 
课时4:SparkRDD原理剖析 
课时5:Spark2sql从mysql中导入 
课时6:Spark1.6.2sql与mysql数据交互 
课时7:SparkSQL java操作mysql数据 
课时8:Spark统计用户的收藏转换率 
课时9:Spark梳理用户的收藏以及订单转换率 
课时10:最终获取用户的收藏以及订单转换率 
课时11:Spark Pipeline构建随机森林回归预测模型 
课时12:Spark 随机森林回归预测结果并存储进mysql
课时13:Spark的决策树算法实现收藏转换率预测
课时14:Spark机器学习各种分类算法介绍
课时15:Spark机器学习协同过滤算法,构建用户与产品模型
课时16:Spark协同算法完成给用户推荐产品。
课时17:Spark与mongodb整合
课时18:Spark的随机森林算法预测产品收藏购买结果存储进mongodb
课时19:Spark操作RDD需要注意点,以及Spark资源参数调优
课时20:Spark整个学习过程及其总结
0
感谢分享
感谢分享
Scala语言培训视频教程
观看地址:http://www.xuetuwuyou.com/course/12
课程出自学途无忧网:http://www.xuetuwuyou.com



课程大纲:
第1课、Scala语言初步
第2课、Scala基本类型及操作、程序控制结构
第3课、Array、List
第4课、Set、Map、Tuple、队列操作实战
第5课、函数与闭包
第6课、类和对象(一)
第7课、类和对象(二)
第8课、包和引入
第9课、继承与组合
第10课、Scala类层次结构、Traits初步
第11课、Trait进阶
第12课、I/O与正则表达式
第13课、高阶函数
第14课、Case Class与模式匹配(一)
第15课、Case Class与模式匹配(二)
第16课、泛型与注解
第17课、类型参数(一)
第18课、隐式转换与隐式参数(一)
第19课、隐式转换与隐式参数(二)
第20课、类型参数(二)
第21课、类型参数(三)
第22课、高级类型 (一)
第23课、高级类型 (二)
第24课、高级类型 (三)
第25课、提取器(Extractor)
第26课、Scala并发编程基础
第27课、Scala操纵 XML
第28课、Scala与JAVA互操作
第29课、Scala数据库编程
第30课、Scala脚本编程与结束语

返回顶部
顶部