LLama3模型的參數規模有多個版本,目前公開的只有80億參數規模版本和700億版本。而根據透露,最高的參數版本是4000億參數規模的模型,只是目前還在訓練中。
LLama3模型之所以能成為最強開源大模型,主要得益于四大關鍵要素:模型架構、預訓練數據、擴大預訓練規模和指令微調。
1. 模型架構:LLama3模型采用了改進的模型架構,使得模型在處理各種任務時更加高效和準確。
2. 預訓練數據:LLama3模型使用了大量的高質量數據集進行預訓練,這些數據集涵蓋了各種領域,如問答、STEM(科學、技術、工程、數學)領域、編程和歷史知識等。
3. 擴大預訓練規模:LLama3模型在預訓練過程中投入巨大,開發了詳細的尺度定律來指導最佳數據組合和訓練計算的使用。這使得他們能預測模型性能,并確保模型在多樣的應用場景中表現出色。
4. 指令微調:LLama3模型在后期訓練過程中采用了監督微調、拒絕采樣、近端策略優化和直接策略優化四種方法相結合,使得模型在聊天應用中更加智能和自然。