hadoop学习总是停留在环境等一系列问题上面,有什么好的方式可以让新手更好的上手

Pual_guan 发布于 2016/05/30 10:47
阅读 216
收藏 0
hadoop学习总是停留在环境等一系列问题上面,有什么好的方式可以让新手更好的上手?
加载中
0
脸大的都是胖纸
脸大的都是胖纸
环境~环境~还是环境~没环境~玩毛线~~
P
Pual_guan
嗯嗯 一直在努力中
0
让往事随风
让往事随风
初学Hadoop,最基础的也就是HDFS和Mapreduce了,HDFS是一个分布式存储文件系统,Mapreduce是一个分布式计算的框架,两者结合起来,就可以很容易做一些分布式处理任务了。作为入门学习资料,这个不错喔:http://edu.51cto.com/course/course_id-4399.html
1、首先你肯定要搭建好环境,了解Hdfs java API的使用
2、然后就是Mapreduce了。说简单一点,这就是一个编程接口,这个框架帮我们抽象了很多分布式处理的细节,我们只需要简单的编写mapreduce任务就可以了。要想编写mapreduce程序,首先你应该弄清楚mapreduce的基本流程。要清楚自己编程写mapreduce任务需要编写哪些东西(就是哪些部分是可以重写,应该重写的),这个可以参考刘鹏的《实战Hadoop》,里面细致的剖析了wordcount程序的运行过程,并说明了哪些函数是我们编程需要实现的。看懂了这些(最好要运行一些这些程序),你基本就可以写一些mapreduce程序,处理一些简单的任务了。(至于mapreduce高级运行,比如定制数据类型、patitioner、组合任务等等这些,你只要知道有这些就可以了,需要用的时候再仔细看。)
知道了这些,基本就是入门了。然后再要深入学习,你就可以根据自己的需要去学了(这个时候你应该也知道该怎么学了)。至于hadoop衍生的那些HIVE、Pig等等,需要知道那些能做什么就可以了。
P
Pual_guan
谢谢你的回答,现在我在将编译打包好的jar包传输到hadoop集群运行的时候出现Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/conf/Configuration问题,您知道怎么解决吗?
返回顶部
顶部