字節(jié)跳動豆包大模型團隊開源一項MoE架構優(yōu)化技術

字節(jié)跳動豆包大模型團隊近日開源一項名為COMET的MoE架構優(yōu)化技術,可將大模型訓練效率提升1.7倍。論文顯示,該技術已實際應用于字節(jié)的萬卡集群訓練,實現數百萬GPU小時訓練算力的節(jié)省。

未經正式授權嚴禁轉載本文,侵權必究。

評論

暫無評論哦,快來評價一下吧!