OSC 第 65 期高手问答 — Spark 企业级实战

叶秀兰 发布于 2015/03/23 07:14
阅读 6K+
收藏 23

OSCHINA 本期高手问答(3月23日-3月29日)我们请来了 @王家林 (王家林)为大家解答关于 Spark 开发方面的问题。

王 家林,Spark 亚太研究院院长和首席专家,当今云计算领域最火爆的技术Docker源码级专家和Docker技术在中国的最早实践者之一。在Spark、Hadoop、 Android、Docker等方面有丰富的源码、实务和性能优化经验。彻底研究了Spark从0.5.0到1.1.0共18个版本的Spark源码。 Hadoop源码级专家,曾负责某知名公司的类Hadoop框架开发工作,专注于Hadoop一站式解决方案的提供,同时也是云计算分布式大数据处理的最 早实践者之一,著有《云计算分布式大数据Hadoop实战高手之路---从零开始》《云计算分布式大数据Hadoop实战高手之路---高手崛起》《云计 算分布式大数据Hadoop。实战高手之路---高手之巅》等;超过10本的IT畅销书作者。

购买链接:http://item.jd.com/11622851.html

相关资料:

spark亚太研究院对spark的源码注释的代码:

Git@OSC 查阅地址:  https://git.oschina.net/sparkinchina/translate-spark   

OSChina 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。

下面欢迎大家就 Spark 企业实战方面问题向 @王家林 提问,请直接在回帖中提问。

加载中
1
完颜阿骨再打
完颜阿骨再打
@王家林 : 我学习Spark的时间很短,目前有这么一个需求,想问一下,如果我要基于Spark构建一个推荐系统,具体应该怎么做呢?能否指点一下。
完颜阿骨再打
完颜阿骨再打
回复 @王家林 : 非常感谢,这下我就有方向了。
王家林
王家林
可以直接使用使用Spark MLlib + Spark SQL整合的模式 ,关于推荐系统本身可以直接使用MLlib中已经实现的协同过滤算法;
0
hzh62
hzh62
@王家林 :如果结合 hbase 做实时分析和处理,也就是代替原来的 mysql+APP的 OLTP 类型的业务系统,能否胜任??
王家林
王家林
Spark+Hbase做实时分析和处理是一个非常强有力的组合,非常适合OLTP类型的业务
0
蔡小峰
蔡小峰
@王家林 :占楼 待提问
0
震秦
震秦

@王家林 : 你好, Sprak Graphx 有没有好用的 Java Api 实例化 Graphx 对象的? 还有 Graphx 的顶点 ID 只能是 Long 型的?

目前使用:

GraphLoader.edgeListFile(sc.sc(), "hdfs:///data/graphx.log", true, 1);



需要固定的格式, 非常痛苦.


王家林
王家林
1,图计算的内容可以来自文件,也可以来自其它RDD; 2,关于文件本身一般都是顶点数据+属性数据的关联,一般会至少有顶点文件; 3,关于文件格式本身,可以使用Join操作等完成复杂的格式需求;
0
r
roywang
@王家林 :请问下spark或hadoop有什么好的调度框架、监控框架吗?
王家林
王家林
1,调度一般都是用Yarn; 2,监控推荐使用Ganlia;
0
z
zdglf
@王家林 : spark on yarn 会有哪些瓶颈!好像spark很耗内存
王家林
王家林
Spark on yarn有很多配置内存的选项; Spark on yarn本身主要的瓶颈是粗粒度问题;
0
山疯
山疯

@王家林 :spark 生产集群硬件配置有什么原则?与原有的 hadoop 集群如何融合达到合理利用?

王家林
王家林
1,spark 生产集群硬件配置一般建议128G以上的内存和32颗以上的CPU; 2,Spark可以直接运行在 hadoop 集群上,Spark运行时候可以调整参数,也可以使用Yarn等资源管理器统一管理;
0
Ryan-瑞恩
Ryan-瑞恩
@王家林 :Spark中,关于Master和 Driver 的区别和用途各是什么??? 以及关于学习Akka方面麻烦给我一些建议,谢谢王老师。。。。。。。同时咨询一下那100期,我很期待,希望早点都能够,感谢感谢……老师辛苦了!
Ryan-瑞恩
Ryan-瑞恩
回复 @王家林 : 向第65期高手问答作者致敬,向默默奉献肃立!老师辛苦了……我会一直支持你!对那些到版权机构说一声流氓。向《大数据Spark企业级实战》这本书再次致敬!!!
Ryan-瑞恩
Ryan-瑞恩
回复 @王家林 : 谢谢王老师!
王家林
王家林
1,Spark中,关于Master是用来做Standalone模式下资源的监控和分配的; Driver 是驱动整个集群工作的,一般我们的程序包含两部分:Driver和Executor代码; 2,,关于学习Akka方面可以看Akka Essentials,也可以参考我的51CTO课程;
0
cncorey
cncorey

@王家林 :我试过社区版的spark1.2.0,1.3.0以及cdh5.3.2中带的spark1.2.0,在执行

rdd.persist(OFF_HEAP)时,总会发生异常:BlockNotFoundException;而我的spark中的tachyon相关配置已按文档要求进行了配置。

请问我是否需要重新编译spark?带上别的什么参数?

王家林
王家林
建议使用最新版本的Spark和Tachyon并进行重新编译,阅读过Tachyon新版本进行了大幅度代码重构!
0
Ericzw
Ericzw
@王家林 :想要做实时分析系统,有什么推荐的框架吗?
王家林
王家林
Spark Streaming+Spark SQL+Spark MLlib是近乎完美的在线分析系统组合技术;
返回顶部
顶部