您好,登錄后才能下訂單哦!
這篇文章主要講解了“mapreduce性能優化的方法是什么”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“mapreduce性能優化的方法是什么”吧!
map task 個數嚴重影響mr的性能。網上很多資料,講解了原理和方法,我這里不再敖述。我總結了兩種修改方法,希望對大家有幫助。
方法1:修改 hdfs 的blocksize,這種方法很不可取,需要重新啟動集群。關鍵是以前的數據依然保持者以前blocksize的大小,新數據才會是新的blocksize的大小。比如以前是128M,修改為512M。以前的數據沒變化,blocksize依然是128M。
方法二:推薦方法。代碼中設置,最靈活,根據不同需求,設置不一樣的值。設置 mapred.min.split.size 的大小代碼中添加FileInputFormat.setMinInputSplitSize,單位是字節,如我的代碼:
job.setMapOutputValueClass(IntWritable.class);
job.setNumReduceTasks(1);
//設置最小分片為512M
FileInputFormat.setMinInputSplitSize(job, 1024*1024*512);
FileInputFormat.addInputPath(job, new Path("/usr/keyword/input"));
補充說明:
TextInputFormat.setMinInputSplitSize(job,1024L);//設置最小分片大小
TextInputFormat.setMaxInputSplitSize(job,1024×1024×10L);//設置最大分片大小
感謝各位的閱讀,以上就是“mapreduce性能優化的方法是什么”的內容了,經過本文的學習后,相信大家對mapreduce性能優化的方法是什么這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。