您好,登錄后才能下訂單哦!
本篇文章給大家分享的是有關如何搭建Hadoop集群,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
獲取Hadoop軟件包。
安裝
安裝Hadoop集群通常要將安裝軟件解壓到集群內的所有機器上。
通常,集群里的一臺機器被指定為NameNode,另一臺不同的機器被指定為JobTracker。這些機器是masters。余下的機器即作為DataNode也作為TaskTracker。這些機器是slaves。
我們用HADOOP_HOME指代安裝的根路徑。通常,集群里的所有機器的HADOOP_HOME路徑相同。
配置
接下來的幾節描述了Hadoop集群搭建過程中如何配置Hadoop集群。
配置文件
對Hadoop的配置通過conf/目錄下的兩個重要配置文件完成:
hadoop-default.xml-只讀的默認配置。
hadoop-site.xml-集群特有的配置。
要了解更多關于這些配置文件如何影響Hadoop框架的細節,請看這里。
此外,通過設置conf/hadoop-env.sh中的變量為集群特有的值,你可以對bin/目錄下的Hadoop腳本進行控制。
Hadoop集群配置
Hadoop集群搭建過程中要配置Hadoop集群,你需要設置Hadoop守護進程的運行環境和Hadoop守護進程的運行參數。
Hadoop守護進程指NameNode/DataNode和JobTracker/TaskTracker。
配置Hadoop守護進程的運行環境
管理員可在conf/hadoop-env.sh腳本內對Hadoop守護進程的運行環境做特別指定。
至少,你得設定JAVA_HOME使之在每一遠端節點上都被正確設置。
管理員可以通過配置選項HADOOP_*_OPTS來分別配置各個守護進程。下表是可以配置的選項。
例如,配置Namenode時,為了使其能夠并行回收垃圾(parallelGC),要把下面的代碼加入到hadoop-env.sh:
exportHADOOP_NAMENODE_OPTS="-XX:+UseParallelGC${HADOOP_NAMENODE_OPTS}"
其它可定制的常用參數還包括:
HADOOP_LOG_DIR-守護進程日志文件的存放目錄。如果不存在會被自動創建。
HADOOP_HEAPSIZE-***可用的堆大小,單位為MB。比如,1000MB。這個參數用于設置hadoop守護進程的堆大小。缺省大小是1000MB。
配置Hadoop守護進程的運行參數
這部分涉及Hadoop集群的重要參數,這些參數在conf/hadoop-site.xml中指定。
以上就是如何搭建Hadoop集群,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。