聚合全网技术文章,根据你的阅读喜好进行个性推荐
软件工程师和算法工程师速来!正在直播:如何使用英特尔oneAPI工具实现PyTorch 优化>>>
楼主 这个对边 我觉得 没有可比性。
首先 hadoop 他是一个生态系统,或者说是一套大数据处理的 一套体系。里面包含很多组件和框架
比如说 最核心的 存储系统hdfs 然后就是 计算框架 mapreduce , 资源管理 yarn,分布式管理 zookeeper等
而 storm 则是数据计算框架。 它应该和 map/reduce, spark ,tez 进行比较才比较合适。
其中 map/reduce 是早在hadoop 1.X中就有的一种 线下的计算框架,简单来说是对数据切片,统计,分来,重组的一个过程。 它的计算计算结果不是最实时的,有点类似 batch 的执行方式。
tez是 map/reduce 的一种拓展,是一种DAG作业的计算框架,对MapReduce数据处理的归纳。它 把Map/Reduce过程拆分成若干个子过程,同时可以把多个Map/Reduce任务组合成一个 较大的DAG任务,减少了Map/Reduce之间的文件存储。
Storm是目前最佳的流式计算框架,Storm由Java和Clojure写成,Storm的优点是全内存计算,所以它的定位是分布式实时计算系统。处理的结果为实时的
Storm类似,Spark也支持面向流的处理机制,不过这是一套更具泛用性的分布式计算平台。Spark能够运行在现有Hadoop集群之上,但需要依赖于YARN对于资源的调度能力。除了Hadoop YARN之外,Spark还能够以Mesos为基础实现同样的资源调度或者利用自身内置调度程度作为独立集群运行。
没有哪个好用 哪个不好用,只有最适用的场景,针对不同应用场景,根据各计算框架的优势进行取舍。
纯手打,望采纳。
楼主 这个对边 我觉得 没有可比性。
首先 hadoop 他是一个生态系统,或者说是一套大数据处理的 一套体系。里面包含很多组件和框架
比如说 最核心的 存储系统hdfs 然后就是 计算框架 mapreduce , 资源管理 yarn,分布式管理 zookeeper等
而 storm 则是数据计算框架。 它应该和 map/reduce, spark ,tez 进行比较才比较合适。
其中 map/reduce 是早在hadoop 1.X中就有的一种 线下的计算框架,简单来说是对数据切片,统计,分来,重组的一个过程。 它的计算计算结果不是最实时的,有点类似 batch 的执行方式。
tez是 map/reduce 的一种拓展,是一种DAG作业的计算框架,对MapReduce数据处理的归纳。它
把Map/Reduce过程拆分成若干个子过程,同时可以把多个Map/Reduce任务组合成一个
较大的DAG任务,减少了Map/Reduce之间的文件存储。
Storm是目前最佳的流式计算框架,Storm由Java和Clojure写成,Storm的优点是全内存计算,所以它的定位是分布式实时计算系统。处理的结果为实时的
Storm类似,Spark也支持面向流的处理机制,不过这是一套更具泛用性的分布式计算平台。Spark能够运行在现有Hadoop集群之上,但需要依赖于YARN对于资源的调度能力。除了Hadoop YARN之外,Spark还能够以Mesos为基础实现同样的资源调度或者利用自身内置调度程度作为独立集群运行。
没有哪个好用 哪个不好用,只有最适用的场景,针对不同应用场景,根据各计算框架的优势进行取舍。
纯手打,望采纳。