Hadoop3.x新特性

發布時間：2020-06-13 06:15:11 來源：網絡閱讀：19714 作者：ZeroOne01 欄目：大數據

Hadoop3.x概述

Hadoop3.x中增強了很多特性，并且也改進了很多地方，是Hadoop2.x的升級（這不是廢話嗎）。需要注意的是，在Hadoop3.x中，不能再使用jdk1.7，而是需要升級到jdk1.8以上版本。這是因為Hadoop 2.0是基于JDK 1.7開發的，而JDK 1.7在2015年4月已停止更新，這直接迫使Hadoop社區基于JDK 1.8重新發布一個新的Hadoop版本，而這正是Hadoop3.x。Hadoop3.x以后將會調整方案架構，將Mapreduce 基于內存+io+磁盤，共同處理數據。

Hadoop 3.x中引入了一些重要的功能和優化，包括HDFS 可擦除編碼、多Namenode支持、MR Native Task優化、YARN基于cgroup的內存和磁盤IO隔離、YARN container resizing等。

Hadoop3.x官方文檔地址如下：

http://hadoop.apache.org/docs/r3.0.1/

Hadoop3.x新特性之Common改進

Hadoop Common改進：

精簡Hadoop內核，包括剔除過期的API和實現，將默認組件實現替換成最高效的實現（比如將FileOutputCommitter缺省實現換為v2版本，廢除hftp轉由webhdfs替代，移除Hadoop子實現序列化庫org.apache.hadoop.Records
lasspath isolation以防止不同版本jar包沖突，比如google Guava在混合使用Hadoop、HBase和Spark時，很容易產生沖突。（https://issues.apache.org/jira/browse/HADOOP-11656）
Shell腳本重構。 Hadoop 3.0對Hadoop的管理腳本進行了重構，修復了大量bug，增加了新特性，支持動態命令等。使用方式上則和之前版本的一致。（https://issues.apache.org/jira/browse/HADOOP-9902）

Hadoop3.x新特性之HDFS改進

Hadoop3.x中最大改變的是HDFS，HDFS通過最近black塊計算，根據最近計算原則，本地black塊，加入到內存，先計算，通過IO，共享內存計算區域，最后快速形成計算結果。

HDFS支持數據的擦除編碼，這使得HDFS在不降低可靠性的前提下，節省一半存儲空間。（https://issues.apache.org/jira/browse/HDFS-7285）
多NameNode支持，即支持一個集群中，一個active、多個standby namenode部署方式。注：多ResourceManager特性在hadoop 2.0中已經支持。（https://issues.apache.org/jira/browse/HDFS-6440）

關于這兩個特性的官方文檔地址：

http://hadoop.apache.org/docs/r3.0.1/hadoop-project-dist/hadoop-hdfs/HDFSErasureCoding.html
http://hadoop.apache.org/docs/r3.0.1/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html

Hadoop3.x新特性之YARN改進

基于cgroup的內存隔離和IO Disk隔離（https://issues.apache.org/jira/browse/YARN-2619）
用curator實現RM leader選舉（https://issues.apache.org/jira/browse/YARN-4438）
containerresizing（https://issues.apache.org/jira/browse/YARN-1197）
Timelineserver next generation （https://issues.apache.org/jira/browse/YARN-2928）

官方文檔地址：

http://hadoop.apache.org/docs/r3.0.1/hadoop-yarn/hadoop-yarn-site/TimelineServiceV2.html

Hadoop3.x新特性之MapReduce改進

Tasknative優化。為MapReduce增加了C/C++的map output collector實現（包括Spill，Sort和IFile等），通過作業級別參數調整就可切換到該實現上。對于shuffle密集型應用，其性能可提高約30%。（https://issues.apache.org/jira/browse/MAPREDUCE-2841）
MapReduce內存參數自動推斷。在Hadoop 2.0中，為MapReduce作業設置內存參數非常繁瑣，涉及到兩個參數：mapreduce.{map,reduce}.memory.mb和mapreduce.{map,reduce}.java.opts，一旦設置不合理，則會使得內存資源浪費嚴重，比如將前者設置為4096MB，但后者卻是“-Xmx2g”，則剩余2g實際上無法讓java heap使用到。（https://issues.apache.org/jira/browse/MAPREDUCE-5785）

Hadoop3.x新特性之其他

添加新的 hadoop-client-api 和 hadoop-client-runtime 組件到一個單獨的jar包里，以此解決依賴不兼容的問題。（https://issues.apache.org/jira/browse/HADOOP-11804）
支持微軟的Azure分布式文件系統和阿里的aliyun分布式文件系統

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

Hadoop3.x新特性

Hadoop3.x概述

Hadoop3.x新特性之Common改進

Hadoop3.x新特性之HDFS改進

Hadoop3.x新特性之YARN改進

Hadoop3.x新特性之MapReduce改進

Hadoop3.x新特性之其他

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

Hadoop3.x新特性

Hadoop3.x概述

Hadoop3.x新特性之Common改進

Hadoop3.x新特性之HDFS改進

Hadoop3.x新特性之YARN改進

Hadoop3.x新特性之MapReduce改進

Hadoop3.x新特性之其他

猜你喜歡

最新資訊

相關推薦

相關標簽