亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何用mapreduce處理數據傾斜問題

發布時間:2022-01-04 10:56:17 來源:億速云 閱讀:345 作者:iii 欄目:云計算

本篇內容主要講解“如何用mapreduce處理數據傾斜問題”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“如何用mapreduce處理數據傾斜問題”吧!

map /reduce 程序執行時, reduce 節點大部分執行完畢,但是有一個或者幾個 reduce
節點運行很慢,導致整個程序的處理時間很長,這是因為某一個 key 的條數比其他 key 多
很多(有時是百倍或者千倍之多),這條 key 所在的 reduce 節點所處理的數據量比其他節
點就大很多,從而導致某幾個節點遲 遲運行不完,此稱之為數據傾斜.
解決方法:
(1)設置一個 hash 份數 N,用來對條數眾多的 key 進行打散。
(2)對有多條重復 key 的那份數據進行處理:從 1 到 N 將數字加在 key 后面作為新 key,
如果需要和另一份數據關聯的話,則要重寫比較類和分發類。如此實現多條 key 的平均分發。
(3)上一步之后, key 被平均分散到很多不同的 reduce 節點。如果需要和其他數據關聯,
為了保證每個 reduce 節點上都有關聯的 key,對另一份單一 key 的數據進行處理:循環的
從 1 到 N 將數字加在 key 后面作為新 key
用上述的方法雖然可以解決數據傾斜,但是當關聯的數據量巨大時,如果成倍的增長某
份數據,會導致 reduce shuffle 的數據量變的巨大,得不償失,從而無法解決運行時間慢的
問題.
在 兩份數據中找共同點,比如兩份數據里除了關聯的字段以外,還有另外相同含義的字段,
如果這個字段在所有 log 中的重復率比較小,則可以用這個字段作為計算 hash 的值,如果
是數字,可以用來模 hash 的份數,如果是字符可以用 hashcode 來模 hash 的份數(當然數
字為了避免落到同一個 reduce 上 的數據過多,也可以用 hashcode),這樣如果這個字段
的值分布足夠平均的話,就可以解決上述的問題。
解決方法: 1. 增加 reduce 的 jvm 內存 2. 增加 reduce 個數

到此,相信大家對“如何用mapreduce處理數據傾斜問題”有了更深的了解,不妨來實際操作一番吧!這里是億速云網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續學習!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

若尔盖县| 若羌县| 友谊县| 南江县| 永寿县| 页游| 石首市| 临颍县| 安新县| 金堂县| 宁武县| 新郑市| 清涧县| 东丰县| 柳江县| 裕民县| 木里| 寿阳县| 安乡县| 边坝县| 治多县| 两当县| 昌黎县| 台北市| 三河市| 泽库县| 河源市| 电白县| 诸暨市| 淮安市| 家居| 工布江达县| 铁力市| 阜城县| 南郑县| 阳信县| 邮箱| 章丘市| 叶城县| 漠河县| 常德市|