您好,登錄后才能下訂單哦!
本篇文章為大家展示了CDH如何使用HDFS分層存儲,內容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細介紹希望你能有所收獲。
在CM上修改DataNode數據目錄,將六塊SSD盤設置為SSD,另外十六塊盤,六塊設置為ARCHIVE,十塊設置為DISK
1.測試使用SSD存儲,執行wordcount
未提交作業前磁盤空間的容量
設置提交wordcount任務的HDFS數據目錄的策略為ALL_SSD
執行生成數據的腳本,生成1TB測試數據
生成數據后查看磁盤,只有SSD容量增長了
提交wordcount任務
wordcount任務完成后查看磁盤,由于wordcount在執行過程中產生的中間數據落磁盤的目錄未指定存儲策略,所以默認使用hot策略,因此造成DISK存儲的目錄數據量有增長
2.測試使用ARCHIVE存儲,執行sort
未提交作業前磁盤空間的容量
設置提交sort任務的HDFS數據目錄的策略為cold
執行生成數據的腳本,生成1TB測試數據
生成數據后查看磁盤,只有ARCHIVE類型的磁盤容量增長了
提交sort任務
sort任務完成后查看磁盤,由于sort在執行過程中產生的中間數據落磁盤的目錄未指定存儲策略,所以默認使用hot策略,因此造成除了ARCHIVE存儲的目錄增長了之外,DISK存儲的目錄數據量也有增長
3.測試使用DISK存儲,執行terasort
未提交作業前磁盤空間的容量
設置提交terasort任務的HDFS數據目錄的策略為hot
執行生成數據的腳本,生成1TB測試數據
生成數據后查看磁盤,只有DISK存儲的目錄數據增長了
提交terasort任務
terasort任務完成后查看磁盤,發現只有DISK存儲的目錄數據增長了
1.可以在CM上對HDFS的數據目錄進行配置,配置上每塊盤的存儲類型,然后在使用HDFS時,對相應的HDFS指定存儲策略,這樣就可以讓指定的數據存儲到對應存儲類型的磁盤,實現HDFS的分層存儲。
2.在使用HDFS分層存儲時需要注意對數據的分配,對于使用頻繁的數據,可以存放在SSD上,對于歸檔的數據可以存放到ARCHIVE類型的磁盤,對于一些常用的基本數據可以存放在DISK類型的磁盤,對數據進行合理的分配,可以讓所有磁盤的性能得到最好的發揮,同時可以獲得最高的性價比。
Fayson的github:
https://github.com/fayson/cdhproject
上述內容就是CDH如何使用HDFS分層存儲,你們學到知識或技能了嗎?如果還想學到更多技能或者豐富自己的知識儲備,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。