搭建Hadoop集群需要以下步驟:
安裝Java:在所有節點上安裝Java,并設置正確的JAVA_HOME環境變量。
下載Hadoop:從Apache官網下載Hadoop的二進制包,解壓到所有節點的相同目錄下。
配置Hadoop:進入Hadoop的安裝目錄,編輯etc/hadoop/core-site.xml
文件,添加如下配置:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://namenode_hostname:9000</value> <!-- namenode_hostname為主節點的主機名 -->
</property>
</configuration>
然后編輯etc/hadoop/hdfs-site.xml
文件,添加如下配置:
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value> <!-- 設置副本數量 -->
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/data/hadoop/dfs/name</value> <!-- 設置主節點的數據存儲路徑 -->
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/data/hadoop/dfs/data</value> <!-- 設置從節點的數據存儲路徑 -->
</property>
</configuration>
最后編輯etc/hadoop/mapred-site.xml.template
文件,將其另存為etc/hadoop/mapred-site.xml
,添加如下配置:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
配置主從節點:在etc/hadoop/slaves
文件中按行填寫從節點的主機名或IP地址,每行一個節點。
配置SSH免密碼登錄:在主節點上生成SSH密鑰對,并將公鑰分發到所有節點上,可以使用ssh-keygen
和ssh-copy-id
命令實現。
啟動Hadoop集群:在主節點上執行以下命令啟動Hadoop集群。
sbin/start-dfs.sh
sbin/start-yarn.sh
http://namenode_hostname:50070
,YARN界面地址為http://namenode_hostname:8088
。以上是一個基本的Hadoop集群搭建過程,具體的配置和調整可以根據需求進行修改。