OSC 第 69 期高手问答 — Apache Spark 源码剖析

叶秀兰 发布于 2015/04/20 07:15
阅读 2K+
收藏 7

OSCHINA 本期高手问答 ( 4月20日- 4月26日) 我们请来了@eagleonline(许鹏)为大家解答关于 Apache Spark 方面的问题。

许鹏,长期致力于电信领域和互联网的软件研发,在数据处理方面积累了大量经验,对系统的可扩展性、可靠性方面进行过深入学习和研究。因此,累积了大量的源码阅读和分析的技巧与方法。目前在杭州同盾科技担任大数据平台架构师一职。对于Linux内核,作者也曾进行过深入的分析。

Spark 目前正在蓬勃发展,越来越多的公司把大数据计算任务迁移到 Spark 平台上来。Spark 开发的学习曲线并不陡峭。但是处理大数据,需要的不仅是逻辑正确的程序,还需要高性能的程序。如果想把 Spark 的性能挖掘到极致,那就需要深入了解Spark 的设计思想和运行机制,而要了解这些,没有比读源代码更直接的了。

为了鼓励踊跃提问,@博文视点 会在问答结束后从提问者中抽取 5 名幸运会员赠予《Apache Spark源码剖析》一书。

购买链接:http://dwz.cn/DpRRK

OSChina高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。

下面欢迎大家就 Apache Spark 方面问题向 @eagleonline(许鹏)提问,请直接回帖提问。
加载中
1
Beyond-Bit
Beyond-Bit
您好,请问你在处理有多个任务要提交到spark计算的时候你是怎么解决的?有的任务可能是周期性的任务。谢谢!
0
loki_lan
loki_lan
@eagleonline :Spark在生产环境中的性能真的像官网说的那样,计算速度比Hadoop快N倍吗?Spark有什么短板?实际应用中要注意什么问题?
e
eagleonline
Hive默认是基于MapReduce来执行的,如果对于同一数据集,你先用Hive来执行,然后再用Spark SQL来执行的话,会明显感受到两者在速度上的差异。
0
沙漠中的蒲公英
@eagleonline 对于一个企业应用使用spark有哪些好的建议以及在spark运维方面有什么好的方案?
0
Ryan-瑞恩
Ryan-瑞恩

@eagleonline :1.Spark如何进行优化?2.在划分partition的时候,根据什么来划分比较合理,以达到性能最优?3.Spark 结合Docker方面给点建议。

谢谢老师!

0
Frank_mc
Frank_mc

@eagleonline :请问下关于Spark机器学习组件MLlib,由于很多还是development跟

experiment,您认为成熟度如何?可否用于生产?

Frank_mc
Frank_mc
回复 @eagleonline : 谢谢
e
eagleonline
MLLib这块不是特别熟悉,如果可能的话,可以进行小批量试用,然后对比效果
0
ainimuyan
ainimuyan

@eagleonline :你好,我一直使用python作为开发语言,看到spark官方也有API的支持,请问如果我使用Python开发spark应用的话能否使用到spark的全部特性,可以的话我在哪能获取到全面的API文档(python),谢谢。

0
Li_Peng
Li_Peng

@eagleonline : 你好,我想请教一下,学习spark源码,对scala的基础有多高的要求?我目前scala基础已经掌握,是否需要在学习完scala的高级特性后都才能学习spark的源码?谢谢!

e
eagleonline
个人以为学习Scala和Spark知识的掌握两者可以并行,如你所知Scala其实是非常庞杂的,全部过一遍尚需很长时间,遑论全部掌握。有一点基础即可进行Spark源码或应用开发,遇到难点再有所针对的去学习
0
okk
okk
@eagleonline :spark 系列 和 hadoop 系列是不是有很多相同的地方,我现在主要在做基于hadoop 系列的,想用到spark系列 有什么需要特别注意的地方,谢谢!
0
华兹格
华兹格

@eagleonline : 使用spark saveAsFile方法把计算结果存成很多个小文件。我下次读取这些小文件时(约8k+)重新计算时,内存暴增基本会oom。

请问造成这个问题的原因是什么呢?我用的是spark1.0x版本

0
宝贵
宝贵

@eagleonline :许老师,请问RDD为什么可以提供性能。


返回顶部
顶部