Apache Spark 的持续增长 已翻译 100%

oschina 投递于 2015/03/20 05:46 (共 6 段, 翻译完成于 04-15)
阅读 5240
收藏 53
1
加载中

这周,快速发展的Apache Spark社区在纽约聚集,为了庆祝成为当今最受欢迎的开源项目之一。

2009年,Spark项目在UC伯克利的AMPLab启动,在过去的一年半里,Apache Spark迅速流行起来。在2014年,Spark已经拥有超过465名的代码贡献者,使得它成为Apache Software Fundation中以及关于大数据开源项目中最活跃的项目。

早些时候,我们主要依赖于自己的集群计算平台,而不是像在scratch平台上编写自己的软件。

Spark基于内存和并行处理的能力使得它在运行项目时比hadoop MapReduce在内存中计算快100倍,在硬盘数据处理上快10倍,这使得大量的数据可以一次性协作处理。

IOT三杯茶
IOT三杯茶
翻译于 2015/03/22 12:33
2

根据 Gartner 的调查, 73% 的组织会在 2016 年投资大数据,不过目前它们中的多数都无法实现该承诺,因为它们没法处理(后文丢失?)

Spark 现在已是广为人知。它2014 Gray Sort Benchmark 排序大赛中的 Daytona 100TB 组赢得奖项,并创造了新的排序世界纪录。

除了对大数据的处理之外,Spark 还拥有其他好处,比如兼容 Hadoop,简化主流语言(Java,Python,Scala 和 SQL)下的接口编程,支持结构化和非结构化数据,机器学习以及数据挖掘。

与 Spark 进行深度集成的企业应用,可以执行大规模的跨部门的数据遍历和处理,这种方式在以前是不可想象的。有了这种技术,我们可以轻松浏览企业内部各处的数据,即使新的数据聚合得越来越多。

捏造的信仰
捏造的信仰
翻译于 2015/03/21 18:39
1

按行业划分早期使用者

按行业划分Spark的早期使用者包括消费性包装品(CPG),保险、媒体、娱乐、制药、零售商和汽车行业,基本上包括所有焦点集中在用户的行业。

在消费性包装品(CPG)行业的用户分析为Spark呈现出一个理想的案例。获取用户的见解和动机对消费性包装品(CPG)行业高管来说是最重要的。大部分传统行业仅限于从几个不同的来源获取孤立的产品和用户信息。然而,快速理解用户反馈对在线产品销售、线上线下结合趋势以及基于地理位置差异来对来用户做一个更好的理解,这样将最终带来更好的销售。

叁万英尺
叁万英尺
翻译于 2015/03/23 19:42
1

快速周期分析和更快速的洞察力提供一个接近实时的视图,它最大化地提供了本地销售的供应链信息。混合的异构数据集来源于诸如ERP和供应链系统,连同像Dun & Bradstreet这样的扩展数据帮助发现更深层次的消费者需求。在访问速度上,可以收敛和分析更多私人信息,收获更多优质的数据源,品牌经理获得了更多的操作性,整体上观察可以更快地看到每日的分析,协同决策。

同样地,数据正驱动着医疗和医药行业,更快和更全面地提升诊断到治疗的速度曲线。Apache Spark的使用让用户们处理更大容量的数据而不用延误,关联数据对的系统模式更新医院护理人员对任何致命疾病的诊断。这个早期预警系统不仅仅挽救了生命,还通过节省药物减少了在医药上的花费,还有实验室测试和其他花费。

溪边九节
溪边九节
翻译于 2015/04/14 20:15
1

尽管Spark获得了很多关注,我还是需要谨记开放,分布式计算框架仍然是一个复杂的巨兽。一个纯净的基于Spark的应用需要很宽泛的技能,也需要掌握大量的细节,还要很强的动手能力去创建和维护一个完全的解决方案去解决任何特定的问题集合。

进化版的Spark项目意味着在企业级数据智能上的创新并聚焦于:

挖掘数据的洞口

为了获得更多来自不同源的数据,我们创建很多仓筒(silo),这是不同类型信息自然的停留地点。还有一个事实形成的数据湖泊,在企业中的数据“堆”是不会在某种情形中被抛弃的。

溪边九节
溪边九节
翻译于 2015/03/26 21:43
1

一个纯净的基于Spark的解决方案并不能履行在大数据上的承诺。Spark的大门是打开的,但是真正要履行承诺还是要解决大数据的速度,公司必须联合Spark在后端对API改进,诸如,弹性伸缩,工作调度,工作负载管理等等。

到2016年,我们期望各个行业的企业理解Spark快速周期分析的价值,用交付由数据驱动的思想去帮助变革,这样我们的社会会更适于生活和工作。

通过在Apache Spark上建立数据智能平台,让公司和组织拥有了新的能力,并使其在时间上拥有了重要的优势,这样他们就可以更积极地投入到与同行的市场竞争中去。

溪边九节
溪边九节
翻译于 2015/03/30 21:44
1
本文中的所有译文仅用于学习和交流目的,转载请务必注明文章译者、出处、和本文链接。
我们的翻译工作遵照 CC 协议,如果我们的工作有侵犯到您的权益,请及时联系我们。
加载中

评论(16)

qwfys
qwfys
+1
夹克虫

引用来自“loki_lan”的评论

Spark口号比较响而已,号称比Hadoop快100倍,前提条件是在内存中运行,我相信这大量的内存需求会提高了成本,在磁盘中运行比Hadoop快10倍。其实这种宣传有点让人误以为Spark跟Hadoop对立了,事实上Spark是补足了Hadoop在某些计算方面的性能而已。

引用来自“BlueSky816”的评论

其实,是不是有点误解,Spark宣称的比Hadoop快100倍主要是比较 Hadoop的MapReduce计算,这个也算是同样的在内存中的进行的。 像计算100TB这样大的数据,而且Hadoop用的节点数量比Spark的要多,一方面是Spark充分的利用内存优势,另外一方面Hadoop的MapReduce机制是在一些中间结果方面需要 Shuffle到磁盘上导致他不能充分利用内存的优势。
666
夹克虫
5
loki_lan
loki_lan

引用来自“loki_lan”的评论

Spark口号比较响而已,号称比Hadoop快100倍,前提条件是在内存中运行,我相信这大量的内存需求会提高了成本,在磁盘中运行比Hadoop快10倍。其实这种宣传有点让人误以为Spark跟Hadoop对立了,事实上Spark是补足了Hadoop在某些计算方面的性能而已。

引用来自“BlueSky816”的评论

其实,是不是有点误解,Spark宣称的比Hadoop快100倍主要是比较 Hadoop的MapReduce计算,这个也算是同样的在内存中的进行的。 像计算100TB这样大的数据,而且Hadoop用的节点数量比Spark的要多,一方面是Spark充分的利用内存优势,另外一方面Hadoop的MapReduce机制是在一些中间结果方面需要 Shuffle到磁盘上导致他不能充分利用内存的优势。
哈,纯内存计算与用内存做计算完全是两码事,我不知道你有没有了解过SAP HANA的内存计算以及他的前身SAP BW,两者的计算速度就是天差地别,你不能说以前的计算不用内存,但是纯内存计算是不会涉及到内存IO与磁盘IO的问题,并且Spark的快不仅仅只是因此内存的原因,Spark还用到了缓存机制。而据我所知,现在的Spark供应商,开口就是Spark比Hadoop快100倍,给人的感觉是什么,误导别人以为Spark能替代Hadoop。
BlueSky816
BlueSky816

引用来自“loki_lan”的评论

Spark口号比较响而已,号称比Hadoop快100倍,前提条件是在内存中运行,我相信这大量的内存需求会提高了成本,在磁盘中运行比Hadoop快10倍。其实这种宣传有点让人误以为Spark跟Hadoop对立了,事实上Spark是补足了Hadoop在某些计算方面的性能而已。
其实,是不是有点误解,Spark宣称的比Hadoop快100倍主要是比较 Hadoop的MapReduce计算,这个也算是同样的在内存中的进行的。 像计算100TB这样大的数据,而且Hadoop用的节点数量比Spark的要多,一方面是Spark充分的利用内存优势,另外一方面Hadoop的MapReduce机制是在一些中间结果方面需要 Shuffle到磁盘上导致他不能充分利用内存的优势。
clive82
clive82

引用来自“过马路的蚂蚁”的评论

与 strom 区别能说的清吗?
相同点:Spark有Streaming,跟Storm一样可以做实时计算。 不同点:Spark Streaming有点类似于JAVA的timer,定时执行,时间片最短500ms。     Storm topology一直在运行,只要有数据流入,立即启动计算,另原生的spout,bolt执行时间通常在几ms。 Spark 通常划入与Impala一类,内存计算框架,新版本内存不够时,也会Spill到磁盘。    Hadoop为批处理计算,相同机器计算的数据量要比Spark大很多倍。    Storm 的Trident接口,实现了小批处理,类似于OLTP事务,一次性处理数百-数万,数十万消息都有可能。我用14个worker结点,500ms,最多处理8万左右的消息。
二的基本算合格
二的基本算合格
现在已经逐渐形成了,Hadoop负责存储,Spark负责运算的结构模式,有兴趣的可以动手了~
loki_lan
loki_lan

引用来自“loki_lan”的评论

Spark口号比较响而已,号称比Hadoop快100倍,前提条件是在内存中运行,我相信这大量的内存需求会提高了成本,在磁盘中运行比Hadoop快10倍。其实这种宣传有点让人误以为Spark跟Hadoop对立了,事实上Spark是补足了Hadoop在某些计算方面的性能而已。

引用来自“朝花夕拾”的评论

观点比较赞同,唯独“我相信这大量的内存需求会提高了成本”这句话我反对。现在一条8G内存多少钱? 在这个年代,硬件已经足够便宜的情况下,很多时候投入硬件解决问题,比投入人力解决问题的成本更低,更省事。
哈,说得也有道理,能搞几千个节点的公司,也不差这点小钱了。
朝花夕拾
朝花夕拾

引用来自“loki_lan”的评论

Spark口号比较响而已,号称比Hadoop快100倍,前提条件是在内存中运行,我相信这大量的内存需求会提高了成本,在磁盘中运行比Hadoop快10倍。其实这种宣传有点让人误以为Spark跟Hadoop对立了,事实上Spark是补足了Hadoop在某些计算方面的性能而已。
观点比较赞同,唯独“我相信这大量的内存需求会提高了成本”这句话我反对。现在一条8G内存多少钱? 在这个年代,硬件已经足够便宜的情况下,很多时候投入硬件解决问题,比投入人力解决问题的成本更低,更省事。
hantsy
hantsy
Spark,Flume,Storm。。。
返回顶部
顶部