一般,中型公司的大数据平台,hadoop几个节点,zookeeper几个节点,spark几个节点?

知行合一1 发布于 2016/08/29 11:55
阅读 3K+
收藏 0
一般,中型公司的大数据平台,hadoop几个节点,zookeeper几个节点,spark几个节点?
加载中
0
_Leo_
_Leo_

这个需要看数据量、看机器配置、spark处理的复杂度。

zk 一般三个就够了。

hadoop和spark节点数量看配置情况。 初始化4台性能测试下,不够再加。

并不是一次性到位的。

_Leo_
_Leo_
回复 @笨笨小猪头2012 : zk作为服务协调系统,不需要那么多内存,zk存储的东西不多。 当然你如果你把zk当memcache用。那内存就另说了。 你分的磁盘是够用。
笨笨小猪头2012
笨笨小猪头2012
您好,我想问下 三台zookeeper做注册中心 能满足100+server性能吗?每台zookeeper32GB内存,80G硬盘。谢谢~!
0
沧海_Sea
沧海_Sea
zookeeper应该3个或者5个把 多了不好
0
小人不才
小人不才
深入浅出Spark机器学习实战(用户行为分析)
课程观看地址:http://www.xuetuwuyou.com/course/144
课程出自学途无忧网:http://www.xuetuwuyou.com

一、课程目标
 熟练掌握SparkSQL的各种操作,深入了解Spark内部实现原理
 深入了解SparkML机器学习各种算法模型的构建和运行
 熟练Spark的API并能灵活运用
 能掌握Spark在工作当中的运用


二、适合人群
 适合给,有java,scala基础,想往大数据spark机器学习这块发展
 适合给想学习spark,往数据仓库,大数据挖掘机器学习,方向发展的学员


三、课程用到的软件及版本:
Spark2.0,Spark1.6.2,STS,maven,Linux Centos6.5,mysql,mongodb3.2




四、课程目录:


课时1:Spark介绍
课时2:Spark2集群安装 
课时3:Spark RDD操作 
课时4:SparkRDD原理剖析
课时5:Spark2sql从mysql中导入 
课时6:Spark1.6.2sql与mysql数据交互
课时7:SparkSQL java操作mysql数据
课时8:Spark统计用户的收藏转换率 
课时9:Spark梳理用户的收藏以及订单转换率
课时10:最终获取用户的收藏以及订单转换率 
课时11:Spark Pipeline构建随机森林回归预测模型 
课时12:Spark 随机森林回归预测结果并存储进mysql 
课时13:Spark对收藏转预测换率与真正的转换率对比,以及决策树模型构建
课时14:Spark机器学习对各种监督与非监督分类学习详细介绍 
课时15:Spark协同过滤算法,构建用户与产品模型 
课时16:Spark协同算法完成给用户推荐产品
课时17:mongodb的安装以及其基本操作 
课时18:Spark与mongodb整合 
课时19:Spark预测收藏以及给用户推荐的产品存储进mongodb 
课时20:操作RDD需要注意点,以及Spark内存分配资源调优
课时21:Spark整个学习过程及其总结
返回顶部
顶部