如何實現Hadoop集群性能優化

發布時間：2021-11-20 16:51:11 來源：億速云閱讀：228 作者：小新欄目：開發技術

這篇文章將為大家詳細講解有關如何實現Hadoop集群性能優化，小編覺得挺實用的，因此分享給大家做個參考，希望大家閱讀完這篇文章后可以有所收獲。

背景

分布式的集群通常包含非常多的機器，由于受到機架槽位和交換機網口的限制，通常大型的分布式集群都會跨好幾個機架，由多個機架上的機器共同組成一個分布式集群。機架內的機器之間的網絡速度通常都會高于跨機架機器之間的網絡速度，并且機架之間機器的網絡通信通常受到上層交換機間網絡帶寬的限制。
具體到Hadoop集群，由于Hadoop的HDFS對數據文件的分布式存放是按照分塊block存儲，每個block會有多個副本(默認為3)，并且為了數據的安全和高效，所以Hadoop默認對3個副本的存放策略為：

在本地機器的hdfs目錄下存儲一個block
在另外一個rack的某個datanode上存儲一個block
在該機器的同一個rack下的某臺機器上存儲***一個block
這樣的策略可以保證對該block所屬文件的訪問能夠優先在本rack下找到，如果整個rack發生了異常，也可以在另外的rack上找到該block的副本。這樣足夠的高效，并且同時做到了數據的容錯。
但是，Hadoop對機架的感知并非是自適應的，亦即，Hadoop集群分辨某臺slave機器是屬于哪個rack并非是只能的感知的，而是需要Hadoop的管理者人為的告知Hadoop哪臺機器屬于哪個rack，這樣在Hadoop的namenode啟動初始化時，會將這些機器與rack的對應信息保存在內存中，用來作為對接下來所有的HDFS的寫塊操作分配datanode列表時（比如3個block對應三臺datanode）的選擇datanode策略，做到Hadoopallocateblock的策略：盡量將三個副本分布到不同的rack。
接下來的問題就是：通過什么方式能夠告知Hadoopnamenode哪些slaves機器屬于哪個rack？以下是配置步驟。

配置

默認情況下，Hadoop的機架感知是沒有被啟用的。所以，在通常情況下，Hadoop集群的HDFS在選機器的時候，是隨機選擇的，也就是說，很有可能在寫數據時，Hadoop將***塊數據block1寫到了rack1上，然后隨機的選擇下將block2寫入到了rack2下，此時兩個rack之間產生了數據傳輸的流量，再接下來，在隨機的情況下，又將block3重新又寫回了rack1，此時，兩個rack之間又產生了一次數據流量。在job處理的數據量非常的大，或者往Hadoop推送的數據量非常大的時候，這種情況會造成rack之間的網絡流量成倍的上升，成為性能的瓶頸，進而影響作業的性能以至于整個集群的服務。
要將Hadoop機架感知的功能啟用，配置非常簡單，在namenode所在機器的Hadoop-site.xml配置文件中配置一個選項：

<property> <name>topology.script.file.name</name> <value>/path/to/script</value> </property>

這個配置選項的value指定為一個可執行程序，通常為一個腳本，該腳本接受一個參數，輸出一個值。接受的參數通常為某臺datanode機器的ip地址，而輸出的值通常為該ip地址對應的datanode所在的rack，例如”/rack1”。Namenode啟動時，會判斷該配置選項是否為空，如果非空，則表示已經用機架感知的配置，此時namenode會根據配置尋找該腳本，并在接收到每一個datanode的heartbeat時，將該datanode的ip地址作為參數傳給該腳本運行，并將得到的輸出作為該datanode所屬的機架，保存到內存的一個map中。
至于腳本的編寫，就需要將真實的網絡拓樸和機架信息了解清楚后，通過該腳本能夠將機器的ip地址正確的映射到相應的機架上去。一個簡單的實現如下：

#!/usr/bin/perl-w  usestrict;  my$ip=$ARGV[0];  my$rack_num=3;  my@ip_items=split/\./,$ip;  my$ip_count=0;  foreachmy$i(@ip_items){  $ip_count+=$i;  }  my$rack="/rack".($ip_count%$rack_num);  print"$rack";

關于“如何實現Hadoop集群性能優化”這篇文章就分享到這里了，希望以上內容可以對大家有一定的幫助，使各位可以學到更多知識，如果覺得文章不錯，請把它分享出去讓更多的人看到。

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

如何實現Hadoop集群性能優化

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

如何實現Hadoop集群性能優化

猜你喜歡

最新資訊

相關推薦

相關標簽