如何搭建Hadoop集群

發布時間：2021-08-11 15:19:55 來源：億速云閱讀：148 作者：Leah 欄目：開發技術

本篇文章給大家分享的是有關如何搭建Hadoop集群，小編覺得挺實用的，因此分享給大家學習，希望大家閱讀完這篇文章后可以有所收獲，話不多說，跟著小編一起來看看吧。

獲取Hadoop軟件包。

安裝

安裝Hadoop集群通常要將安裝軟件解壓到集群內的所有機器上。
通常，集群里的一臺機器被指定為NameNode，另一臺不同的機器被指定為JobTracker。這些機器是masters。余下的機器即作為DataNode也作為TaskTracker。這些機器是slaves。
我們用HADOOP_HOME指代安裝的根路徑。通常，集群里的所有機器的HADOOP_HOME路徑相同。

配置

接下來的幾節描述了Hadoop集群搭建過程中如何配置Hadoop集群。

配置文件

對Hadoop的配置通過conf/目錄下的兩個重要配置文件完成：

hadoop-default.xml-只讀的默認配置。
hadoop-site.xml-集群特有的配置。
要了解更多關于這些配置文件如何影響Hadoop框架的細節，請看這里。
此外，通過設置conf/hadoop-env.sh中的變量為集群特有的值，你可以對bin/目錄下的Hadoop腳本進行控制。

Hadoop集群配置

Hadoop集群搭建過程中要配置Hadoop集群，你需要設置Hadoop守護進程的運行環境和Hadoop守護進程的運行參數。
Hadoop守護進程指NameNode/DataNode和JobTracker/TaskTracker。

配置Hadoop守護進程的運行環境

管理員可在conf/hadoop-env.sh腳本內對Hadoop守護進程的運行環境做特別指定。
至少，你得設定JAVA_HOME使之在每一遠端節點上都被正確設置。
管理員可以通過配置選項HADOOP_*_OPTS來分別配置各個守護進程。下表是可以配置的選項。

如何搭建Hadoop集群

例如，配置Namenode時,為了使其能夠并行回收垃圾（parallelGC），要把下面的代碼加入到hadoop-env.sh:
exportHADOOP_NAMENODE_OPTS="-XX:+UseParallelGC${HADOOP_NAMENODE_OPTS}"

其它可定制的常用參數還包括：
HADOOP_LOG_DIR-守護進程日志文件的存放目錄。如果不存在會被自動創建。
HADOOP_HEAPSIZE-***可用的堆大小，單位為MB。比如，1000MB。這個參數用于設置hadoop守護進程的堆大小。缺省大小是1000MB。

配置Hadoop守護進程的運行參數
這部分涉及Hadoop集群的重要參數，這些參數在conf/hadoop-site.xml中指定。

如何搭建Hadoop集群

以上就是如何搭建Hadoop集群，小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

如何搭建Hadoop集群

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

如何搭建Hadoop集群

猜你喜歡

最新資訊

相關推薦

相關標簽