亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么簡單理解Google 1.6萬億參數的Switch Transformer論文?

發布時間:2021-12-22 14:45:22 來源:億速云 閱讀:168 作者:柒染 欄目:大數據

這期內容當中小編將會給大家帶來有關 怎么簡單理解Google 1.6萬億參數的Switch Transformer論文?,文章內容豐富且以專業的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。

Switch Transformer 可以理解成一種如何在訓練基于MOE (Mixture of Experts) 的巨模型時“偷工減料”的技巧,但這種“偷工減料”卻蘊含了一些新的洞察(insights)。

在一般情況下,基于MoE,一個樣例進來,會被好幾個子網絡(expert)處理,這幾個子網絡的處理結果可以加權求和,每個子網絡的權重是通過一個叫router的模塊計算出來的(如下圖所示)。MoE可以理解成一種模型的集成 (ensemble),根據top k 激活一部分子網絡。按照我們對模型集成的經驗,一般來說,集成的結果應該要比每一個子網絡單獨的效果好 (這一點很重要,后文還會提到)。當然,這也讓MoE的不足之處展現出來,每個子網絡都需要進行計算,總計算量是所有子網絡計算量之和。不過,MoE 使用所有子網絡不一定就比只使用一個網絡好,sparsity 可以讓每個子網絡更“聚焦”,分工更明確,帶來的優勢還需進一步觀察。

怎么簡單理解Google 1.6萬億參數的Switch Transformer論文?

Switch Transformer 的發現是什么?如下圖所示,每一個樣例進來不需要被所有的子網絡處理,只被router模塊權重最大的子網絡處理,這個子網絡的結果再乘以這個權重就可以了,計算量一下子變成了MoE的四分之一。

怎么簡單理解Google 1.6萬億參數的Switch Transformer論文?

計算量是少了,效果會有損失嗎?按常規的理解來說,效果應該是有損失的,不過這篇論文并沒有提供一組實驗結果正面回答這個問題。Table 1 的實驗結果雖然對比了Switch Transformer和 MoE 并得出了雙方最接近這個結論,但其對比方式并不一致。該實驗并未在固定每個expert 網絡大小的情況下去對比,而是在speed-quality 的基礎上對比(全文的實驗結果都是這樣設定),也就是讓MoE和Switch Transformer在計算速度差不多的情況下對比質量,這種情況下Switch Transformer里的子網絡的規模一定比MoE 里的子網絡規模大。

當然Switch Transformer論文的意義也在于此。其提供了一種“增大參數量,但不增大計算量”的技巧,而且實驗還發現,“增大參數量能提升效果”。

我們可以進一步考慮兩個極端情況。

如果上面的A, B, C, D 子網絡是被分配到不同的設備上去運行的,那么在子網絡參數規模相同的情況下,MoE 計算速度和Switch Transformer 可以保持一致,MoE 四個設備同時都用滿了,但Switch Transformer 里一個樣例只激活一個設備,設備總體利用率可能不高。但MoE的效果應該比Switch Transformer好,因為每個樣例都激活了所有的專家網絡,一般情況下,集成的效果會更好(但稀疏化后也可能更好,因為每個專家會更加聚焦和專注)。當然,一個批次里包含很多樣例,在Switch Transformer里,平均來說每個設備都會有活干,Switch Transformer仍會有速度優勢。

如果A, B, C, D 被分配到同一個設備上了,這時,A, B, C, D 不能同時運行,那么Switch Transformer 就比MoE 快4倍,這種情況 Switch Transformer 才有速度優勢。

引入sparsity,并行和負載均衡都會引入一些新的問題,Switch Transformer也都提供了一些解決辦法。例如引入了傾向于負載均衡的損失函數,以及expert 并行等。其中Switch Transformer 所需要的數據并行、模型并行混合并行也正是OneFlow框架所擅長的,論文在解決這個問題時,使用了Mesh-tensorflow。

上述就是小編為大家分享的 怎么簡單理解Google 1.6萬億參數的Switch Transformer論文?了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關知識,歡迎關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

汕头市| 青冈县| 洛南县| 保定市| 行唐县| 昌宁县| 桦甸市| 祥云县| 手游| 汉寿县| 宣威市| 苏尼特左旗| 盐池县| 乐亭县| 抚顺县| 盘山县| 东阳市| 黄骅市| 巍山| 时尚| 玛沁县| 克拉玛依市| 伊春市| 大埔区| 景泰县| 安岳县| 尉氏县| 北川| 仙桃市| 无锡市| 合阳县| 桂林市| 马鞍山市| 金堂县| 乌拉特中旗| 偏关县| 五莲县| 河源市| 板桥市| 收藏| 准格尔旗|