Hadoop安装部署

Artemjor 发布于 2014/01/10 15:58
阅读 1K+
收藏 11


本节课程概览

Hadoop 在windows 上伪分布式的安装过程 

Hadoop 在linux  上单节点伪分布式的安装过程 

集成Eclipse 开发环境 

Hadoop UI 介绍

运行WordCounter  事例

 

 

第一部分:Hadoop windows 上伪分布式的安装过程

安装JDK

1.下载JDK

       http://www.oracle.com/technetwork/java/javaee/downloads/java-ee-sdk-6u3-jdk-6u29-downloads-523388.html

2.解压

   或者直接运行.exe安装

后面根据项目的实际需要来进行调整。

安装 Cygwin

1.下载Cygwin

    网址: http://www.cygwin.com/setup.exe

 2.安装Cygwin

1. Net Category 下的OpenSSL

2.    Base Category 下的sed

3.Editors Category 下的vim

4.Devel Category  下subversion

后面根据项目的实际需要来进行调整。

 

配置环境变量

1.配置JAVA 环境变量

    PATH 和JAVA_HOME:

        JAVA_HOME 指向JDK安装目录;

        PATH 指向JDK的bin

 

启动 SSHD 服务

1.安装SSHD

   ssh-host-config

2. 启动SSHD

    net start sshd 

ssh 的安装和配置

实现ssh无密码登陆

$ssh-keygen -t rsa  

直接回车,完成后会在~/.ssh/生成两个文件:id_dsa 和id_dsa.pub。这两个是成对

出现,类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys 
$cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys完成后可以实现无密码登录本机

 

安装 Hadoop

1.下载Hadoop

   http://labs.mop.com/apache-mirror/hadoop/common/hadoop-1.0.0/

2.解压Hadoop

         tar xzvf hadoop-0.21.0.tar.gz

配置 Hadoop

1. 配置hadoop-env.sh

2 .配置conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml文件

概念

HDFS:

      NameNode  :管理节点

      DataNode   :数据节点

      SecondaryNamenode : 数据源信息备份整理节点

 

MapReduce

       JobTracker  :任务管理节点

       Tasktracker  :任务运行节点

 

配置文件

       core-site.xml   common属性配置

       hdfs-site.xml    HDFS属性配置

       mapred-site.xml  MapReduce属性配置

       hadoop-env.sh     hadooop 环境变量配置

修改 hadoop-env.sh

配置JDK即可

export JAVA_HOME=/cygdrive/d/java/jdk1.6.0_25

core-site.xml

 

java代码:

查看复制到剪贴板打印

1.     <configuration>       

2.     <property>    

3.            <name>fs.default.name</name>    

4.            <value>hdfs://localhost:9000</value>    

5.     </property>    

6.     <property>  

7.            <name>hadoop.tmp.dir</name>  

8.             <value>/hadoop</value>  

9.          </property>  

10.  </configuration>    

 

hdfs-site.xml

  

java代码:

查看复制到剪贴板打印

1.     <configuration>       

2.        <property>    

3.              <name>dfs.replication</name>    

4.              <value>1</value>    

5.         </property>    

6.     </configuration>    

mapred-site.xml

java代码:

查看复制到剪贴打印

1.     <configuration>       

2.         <property>    

3.              <name>mapred.job.tracker</name>    

4.              <value>localhost:9001</value>    

5.         </property>    

6.     </configuration>    

 

启动 Hadoop

 1.格式化文件系统

      hadoop namenode –format

 2. 启动hadoop

      启动所有任务start-all.sh/stop-all.sh

      启动关闭HDFS: start-dfs.sh/stop-dfs.sh

      启动关闭MapReduce:  start-mapred.sh/stop-mapred.sh      

 3. 用jps命令查看进程,确保有   namenode,dataNode,JobTracker,TaskTracker

      

第二部分:Hadoop linux  上单节点伪分布式的安装过程

安装 JDK

$chmod +x jdk-6u27-linux-i586.bin

$./jdk-6u27-linux-i586.bin

安装完后设置java 环境变量如下

命令 :/home路径下

$vi .bashrc

然后添加如下语句

export JAVA_HOME=/home/test/ jdk1.6.0_27

export PATH =/bin:$JAVA_HOME/bin:/usr/bin:$PATH:.

然后. .bashrc使其生效

 

ssh 的安装和配置

$实现ssh无密码登陆

$sudo apt-get install ssh

$ssh-keygen 

直接回车,完成后会在~/.ssh/生成两个文件:id_dsa 和id_dsa.pub。这两个是成对

出现,类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys 
$cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys完成后可以实现无密码登录本机

 

 

Hadoop 安装

1.下载Hadoop

   http://labs.mop.com/apache-mirror/hadoop/common/hadoop-1.0.0/

2.解压Hadoop

         tar xzvf hadoop-0.21.0.tar.gz

3. 添加Hadoop Bin到环境变量中

 

修改 hadoop-env.sh

配置JDK即可

export JAVA_HOME=/cygdrive/d/java/jdk1.6.0_25

 

 

conf/core-site.xml

 

java代码:

查看复制到剪贴板打印

1.     <configuration>       

2.         <property>    

3.               <name>fs.default.name</name>    

4.               <value>hdfs://localhost:9000</value>    

5.           </property>    

6.           <property>  

7.                <name>hadoop.tmp.dir</name>  

8.                <value>/hadoop</value>  

9.            </property>  

10.  </configuration>    

 

conf/hdfs-site.xml

 

java代码:

查看复制到剪贴板打印

1.     <configuration>       

2.        <property>    

3.              <name>dfs.replication</name>    

4.              <value>1</value>    

5.         </property>    

6.     </configuration>    

 

conf/mapred-site.xml

 

java代码:

查看复制到剪贴板打印

1.     <configuration>       

2.          <property>    

3.              <name>mapred.job.tracker</name>    

4.              <value>localhost:9001</value>    

5.         </property>    

6.     </configuration>    

启动 Hadoop

 1.格式化文件系统

      hadoop namenode –format

 2. 启动hadoop

     启动关闭所有服务 start-all.sh/stop-all.sh

     启动关闭HDFS: start-dfs.sh/stop-dfs.sh

     启动关闭MapReduce:  start-mapred.sh/stop-mapred.sh

 3. 用jps命令查看进程,确保有   namenode,dataNode,JobTracker,TaskTracker

      

第三部分:Hadoop UI 介绍

Hadoop 重要的端口

1.Job Tracker 管理界面:50030

2.HDFS 管理界面 :50070

3.HDFS通信端口:9000

4.MapReduce通信端口:9001

常用访问页面

1. HDFS 界面

        http://hostname:50070

2. MapReduce 管理界面

        http://hostname:50030

 

第四部分:运行Word Count 示例

相关步骤及命令

1.先在本地磁盘上建立两个文件file1和file2

      $ echo ”Hello world Bye world" > >~/input/file1

      $ echo ”hello hadoop bye hadoop” > >~/input/file2

2.在HDFS上建立一个input目录

       $ hadoop fs -mkdir /tmp/input

3.将file1和file2拷贝到hdfs的input目录下

       $ hadoop fs -put input/* /tmp/input

4.检查hdfs上有没有file1,file2

     $ hadoop fs -ls /tmp/input

5.执行wordcount

   hadoop jar hadoop-examples-1.0.0.jar wordcount  /tmp/input  /tmp/output

6.运行完成,查看结果

   hadoop fs -cat /output/part-r-00000

 

 

第五部分:集成 Eclipse 开发环境

通过 Eclipse 编写 Hadoop 程序

1.导入hadoop-core.jar及hadoop/lib下所有Jar包

2.加入Hadoop配置文件,包括conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml,并修改相应参数。

本节课程小结

掌握了在Windows ,Linux(ubuntu)上安装Hadoop 单节点伪分布式安装 

初次体验了Hadoop运行的WordCounter程序 

了解了Hadoop UI


 掌握了Hadoop 集成到 Eclipse的情况

私塾在线原创

加载中
0
new-object
new-object
这是从哪抄来的啊,贴个原帖地址。
返回顶部
顶部