Home

配置单节点集群的hadoop环境

Hadoop2.7.2环境配置

Hadoop2.7.2可以通过官网http://www-eu.apache.org/dist/hadoop/common/hadoop-2.7.2/ 下载，下载直接选择编译好的版本tar.gz，而不选择src.tar.gz源码。我选择将hadoop2.7.2安装在/usr/下，直接解压即可。

Hadoop单机配置

即使不配置分布式环境，也可以在单机的环境下跑Hadoop自带的实例，运行./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar可以看到自带的所有实例，包括wordcount、terasort、join、grep 等。例如运行grep实例：

$ cd /usr/hadoop-2.7.2
$ mkdir ./input
$ cp ./etc/hadoop/*.xml ./input
$ ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input ./output 'dfs[a-z.]+'
$ cat ./output/*

Hadoop伪分布模式

首先配置hadoop的JAVA_HOME，使用vim打开/etc/hadoop/hadoop-env.sh，修改为export JAVA_HOME = /usr/jdk1.8.0_51，切记使用绝对路径，使用${JAVA_HOME}是行不通的。 Hadoop 的配置文件位于 /usr/hadoop-2.7.2/etc/hadoop/ 中，伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式，每个配置以声明 property 的 name 和 value 的方式来实现。修改core-site.xml文件，添加：

<property>
    <name>hadoop.tmp.dir</name>
    <value>file:/usr/hadoop-2.7.2/tmp</value>
    <description>Abase for other temporary directories.</description>
</property>
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
</property>

修改hdfs-site.xml文件，添加:

<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>
<property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/usr/hadoop-2.7.2/tmp/dfs/name</value>
</property>
<property>
    <name>dfs.datanode.data.dir</name>
    <value>file:/usr/hadoop-2.7.2/tmp/dfs/data</value>
</property>

完成这两个文件的配置之后，格式化namenode:

$ ./bin/hdfs namenode -format

接着开启 NameNode 和 DataNode 守护进程:

$ ./sbin/start-dfs.sh

启动完成后，可以通过命令 jps 来判断是否成功启动，若成功启动则会列出如下进程: “NameNode”、”DataNode” 和 “SecondaryNameNode”（如果 SecondaryNameNode 没有启动，请运行 sbin/stop-dfs.sh 关闭进程，然后再次尝试启动尝试）。如果没有 NameNode 或 DataNode ，那就是配置不成功。成功启动后，可以访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息，还可以在线查看 HDFS 中的文件。

启动yarn，yarn是从mapreduce中分离出来的，负责资源管理和任务调度，伪集群模式下可以不启动yarn，启动yarn更加耗时一点

首先修改配置文件mapred-site.xml

<configuration>
        <property>
             <name>mapreduce.framework.name</name>
             <value>yarn</value>
        </property>
</configuration>

其次修改yarn-site.xml

<configuration>
        <property>
             <name>yarn.nodemanager.aux-services</name>
             <value>mapreduce_shuffle</value>
            </property>
</configuration>
<configuration>
    <property>
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>128</value>
        <description>Minimum limit of memory to allocate to each container request at the Resource Manager.</description>
    </property>
    <property>
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>2048</value>
        <description>Maximum limit of memory to allocate to each container request at the Resource Manager.</description>
    </property>
    <property>
        <name>yarn.scheduler.minimum-allocation-vcores</name>
        <value>1</value>
        <description>The minimum allocation for every container request at the RM, in terms of virtual CPU cores. Requests lower than this won't take effect, and the specified value will get allocated the minimum.</description>
    </property>
    <property>
        <name>yarn.scheduler.maximum-allocation-vcores</name>
        <value>2</value>
        <description>The maximum allocation for every container request at the RM, in terms of virtual CPU cores. Requests higher than this won't take effect, and will get capped to this value.</description>
    </property>
    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>4096</value>
        <description>Physical memory, in MB, to be made available to running containers</description>
    </property>
    <property>
        <name>yarn.nodemanager.resource.cpu-vcores</name>
        <value>4</value>
        <description>Number of CPU cores that can be allocated for containers.</description>
    </property>
</configuration>

注意：以上是配置yarn的内存空间，非常重要。
然后就可以启动yarn了，./sbin/start-yarn.sh，然后开启历史服务器./sbin/mr-jobhistory-daemon.sh start historyserver，开始之后可以通过http://localhost:8088/cluster来查看任务

运行hadoop伪分布式实例

首先删除本地input和output目录，./bin/hdfs dfs -mkdir -p input会在用户目录/usr/txy/下新建一个input目录，每个用户在hdfs中都会以用户名对应一个文件夹，比如/usr/txy，把本地文件复制到hdfs中：

$ ./bin/hdfs dfs -put ./etc/hadoop/*.xml input
$ ./bin/hdfs dfs -ls input

运行程序并查看结果，也可以将结果拷贝到本地之后查看

$ ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'
$ ./bin/hdfs dfs -cat output/*
$ ./bin/hdfs dfs -get output ./output
$ cat ./output/*

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Home

配置单节点集群的hadoop环境

相关环境配置

jdk环境配置

openssh环境配置

Hadoop2.7.2环境配置

Hadoop单机配置

Hadoop伪分布模式

启动yarn，yarn是从mapreduce中分离出来的，负责资源管理和任务调度，伪集群模式下可以不启动yarn，启动yarn更加耗时一点

运行hadoop伪分布式实例

Clone this wiki locally