OSC 第 72 期高手问答 — Hadoop 核心技术

叶秀兰 发布于 2015/05/12 10:44
阅读 7K+
收藏 16

OSCHINA 本期高手问答 ( 5月12日- 5月18日) 我们请来了@nuoline翟周伟)为大家解答关于 Hadoop 方面的问题。

翟周伟,就职于百度,资深Hadoop技术专家,专注于Hadoop&大数据、数据挖掘、自然语言处理等领域。2009年便开始利用Hadoop构建商业 级大数据系统,是国内该领域最早的一批人之一,负责设计过多个基于Hadoop的大数据平台和分析系统。2011年合著出版《Hadoop开源云计算平台》。在自然语言处理领域申请过一项发明专利。

可以毫不夸张地说,近十年来,正是Hadoop的出现和不断完善,让海量数据挖掘成为可能,为科研和IT业界带来了一场革命性的风暴。身处风暴中心的互联网 企业们,更是将这个工具发挥到极致,不但在该平台上运行无数的离线服务,还逐渐以更加开放的心态,反哺社区和学习者。本书从Hadoop的基本使用开始讲 解,逐步深入到实现机制分析,最后回归到实战级的应用开发,对Hadoop的开 发、运维人员来说,是“用好”Hadoop的一本不可多得的参考书。

为了鼓励踊跃提问,@华章图书 会在问答结束后从提问者中抽取 5 名幸运会员赠予《Hadoop 核心技术》一书。

样章试读:http://www.oschina.net/doc/9812 

百度资深Hadoop技术专家和高级算法工程师撰写,结合百度大数据实践,直击企业痛点,多位大数据技术专家联袂推荐

购买链接:http://item.jd.com/11668649.html 

OSChina高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。

下面欢迎大家就  Hadoop 方面问题向 @nuoline翟周伟)提问,请直接回帖提问。

加载中
0
华章
华章

OSC 第 72 期高手问答 — Hadoop 核心技术 获奖名单公布:

五位幸运者是:@Sephiroth @蛋蛋娃 @程序熊 @高达 @Moya

恭喜以上五位幸运者获赠《Hadoop核心技术》图书一本

请留言 @华章  告知快递信息(格式:姓名+电话+地址+邮编号码) 

蛋蛋娃
蛋蛋娃
嘻嘻^-^
0
霍啸林
霍啸林
@nuoline :样章 2.1.1 软件与准备 


软件准备:... 安装 jd 后并配置


软件准备:... 安装 jdk 后并配置

0
霍啸林
霍啸林

@nuoline :样章 1.5.2 阿里巴巴


为了便于开发...Web IDE 继承开发环境


为了便于开发...Web IDE 集成开发环境

0
霍啸林
霍啸林

@nuoline :样章 3.4.7 安全模式

相关参数包括:...

第二和第三个参数都是 dfs.replication.min

等待时间默认为0,单位为秒

dfs.replication.min 是以 min 结尾,单位为秒还是分?

0
霍啸林
霍啸林

@nuoline :样章 3.4.4.3 流水线式的复制

客户端开始向第一个 DataNode 传输数据,第一个 DataNode ... 同时传输该部分到第二个 DataNode ... 传给第三个 DataNode

第一个 DataNode 是如何传输数据给第二个 DataNode 的?是通过 TCP/IP 传输的?如果是的话,第一个 DataNode 是主动向第二个 DataNode 发起 TCP 连接的?如果是的话,第一个 DataNode 是怎么知道第二个 DataNode 的 IP 地址和端口号的?是第一个 DataNode 询问 NameNode 后才知道的,还是客户端从 NameNode 那里获取第二个 DataNode 的 位置后,在向第一个 DataNode 传输数据时顺便告诉 第一个 DataNode 的?

总舵主
总舵主
客户端向第一个datanode写数据的时候,会将剩下的datanode的IP和端口资料和数据一起带过去.第一个datanode解析数据,按照信息,向第二个datanode写.依次类推.
0
霍啸林
霍啸林
@nuoline :作为百度资深Hadoop技术专家和高级算法工程师,在完成《Hadoop核心技术》这本书的书稿后,是否考虑过将书稿转换成文本,丢到百度的Hadoop集群中,利用Hadoop&大数据、数据挖掘、自然语言处理等领域的技能和经验,将上面提到样章中的这类笔误分析出来呢?
0
Sephiroth
Sephiroth

@nuoline :您好

1.关于企业使用Hadoop的场景,多少数据量适合使用Hadoop?

2.就目前我们使用的场景,基本就是靠MapReduce来做算法处理(不知道使用方式是否正确),但事实上如果数据源是Oracle这种关系型数据库,反而使用第三方BI工具比较方便,关于如何选择Hadoop或者其他方案想听听您的建议。

3.从Hadoop从业者角度来看,具体方向是什么?(算法的设计?性能?或者其他?)

0
尼古丁诱惑的男人
尼古丁诱惑的男人
问下我们现在用hadoop.hbase zookpeer phoneix做数据分析。这样性能怎么样?
0
程序熊
程序熊
@nuoline ,请问hadoop什么应用场景合适?请问,学习曲线如何?从何入手学习?
0
灰灰
灰灰
@nuoline :hadoop是不是只能安装在32位环境?有没有开源的“一键搭建”脚本?
返回顶部
顶部