您現在的位置是:新聞中心 >>正文

16384塊N卡訓練4050億參數大模型:3小時(shí)報錯一次

新聞中心38184人已圍觀(guān)

簡(jiǎn)介如今的AI大模型規模越來(lái)越龐大,動(dòng)輒成百上千億參數,訓練過(guò)程不僅需要數萬(wàn)甚至十幾萬(wàn)塊GPU加速卡,出錯的幾率也越來(lái)越高。Meta(Facebook)就披露了一份驚人的報告。Meta在報告中披露,為了訓 ...

如今的塊N卡訓AI大模型規模越來(lái)越龐大,動(dòng)輒成百上千億參數,練億訓練過(guò)程不僅需要數萬(wàn)甚至十幾萬(wàn)塊GPU加速卡,參數錯次出錯的大模幾率也越來(lái)越高。Meta(Facebook)就披露了一份驚人的時(shí)報報告。

Meta在報告中披露,塊N卡訓為了訓練自己的練億Llama 3 4050億參數大模型,使用了包含16384塊NVIDIA H100 80GB GPU的參數錯次集群,一共花了45天,大模期間居然出現了419次意外報錯,時(shí)報平均每3個(gè)小時(shí)就一次,塊N卡訓而一半的練億錯誤都和GPU及其自帶的HBM3內存有關(guān)。

16384塊N卡訓練4050億參數大模型:3小時(shí)報錯一次

要知道,參數錯次大模型訓練的大模工作量異常龐大,而且需要高度同步,時(shí)報一次錯誤就可能導致整個(gè)訓練工作必須從頭再來(lái)。

報告顯示,為期45天的預訓練階段中,總共出現了466次工作中斷,其中47次是計劃內的自動(dòng)維護,419次是意外的,且大部分都來(lái)自硬件問(wèn)題,GPU又是最多的,占了其中的58.7%。

具體來(lái)說(shuō),148次即30.1%的意外中斷來(lái)自各種GPU失效(包括NVLink總線(xiàn)),72次即17.2%來(lái)自HBM3內存失效——畢竟,700W的功耗太熱了。

16384塊N卡訓練4050億參數大模型:3小時(shí)報錯一次

還有19次來(lái)自GPU SRAM,17次來(lái)自GPU處理器,6次來(lái)自GPU靜默數據錯誤,6次來(lái)自GPU散熱和傳感器。

其他錯誤來(lái)自軟件bug、網(wǎng)線(xiàn)和網(wǎng)卡等等各個(gè)方面。有趣的是,CPU錯誤只出現了2次。

還好,Llama 3團隊非常給力,在這么高的出錯幾率下,依然維持了超過(guò)90%的有效訓練時(shí)間,而且只有三次GPU報錯需要大量人工干預,其他都被自動(dòng)化管理糾正了。

Tags:

相關(guān)文章

?
日本国产激情视频_中国av片永久免费_A级毛片免费中文字幕无码_亚洲污污无码网站在线观看