您好,登錄后才能下訂單哦!
在MapReduce的各階段過程中,根據場景開啟不同類型的壓縮,可以有效提升Job的處理時間;
MR使用壓縮的各個階段:
? ? ??壓縮可以在 MapReduce 作用的任意階段啟用,通過壓縮可以有效降低Job的處理時間;
????
????從上圖可以總結為如下內容:
????1.從原始數據到Map階段;需要可切分的Splitable,以便于啟動多個線程加速任務
????2.Map階段落地過程;因為需要馬上進行Reduce,所以講求的是Speed,所以越快越好
????3.Reduce階段是分結果的:
????????歸檔需求:建議采用高壓縮比的工具,歸檔后節省磁盤空間;
????????作為下一個任務的輸入:要采用Splitable,如果不切片的話下一個MapReduce將只有一個task來處理任務
壓縮工具特點對比:
????
壓縮性能比較:
????
????通過上圖,可以根據不同的階段,選項不同的壓縮工具;
????在選項壓縮工具時,針對不同的階段,可以從3個方面選擇對應壓縮工具:壓縮比、壓縮速度、是否分片
關于壓縮Hadoop引入的編碼器:
????
Hadoop關于壓縮參數的配置:
????
????core-site.xml相關的配置:io.compression.codecs -> 配置支持哪些壓縮格式,多種壓縮格式以逗號區分
????mapred-site.xml相關的配置:
????????reduce階段:
????????mapreduce.output.fileoutputformat.compress:是否開啟壓縮,true表示開啟,默認為false
????????mapreduce.output.fileoutputformat.compress.codec:壓縮類型
? ? ? ? map階段:
????????mapreduce.map.output.compress:是否開啟壓縮,true表示開啟,默認為false
????????mapreduce.map.output.compress.codec:壓縮類型
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。