Meta昨(24)日宣布正在打造全球最快AI超級電腦,志在用以訓練數兆參數的大型模型,加速實(shí)現元宇宙(metaverse)愿景。
名為AI Research SuperCluster(RSC)的超級電腦預計2022年中打造完成。Meta執行長(cháng)Mark Zuckerberg表示目前RSC是全球運行中最快AI超級電腦之一,但等建造完成時(shí)將成為全球最快。
目前Meta研究人員已經(jīng)用RSC來(lái)訓練自然語(yǔ)言處理(NLP)及電腦視覺(jué)(computer vision)研究使用的大型模型。他們希望RSC未來(lái)可以處理數兆參數的模型。
Meta表示由于有些實(shí)驗要進(jìn)行好幾個(gè)星期,且涉及數千個(gè)GPU,因此RSC架構必須極穩定,此外又必須好操作以支援研究人員進(jìn)行各種AI模型的訓練。
RSC由數個(gè)運算節點(diǎn)組成,并以高速網(wǎng)絡(luò )串連而成。Meta表示RSC目前已包含760個(gè)Nvidia DGX A100系統節點(diǎn),總和達6,080顆GPU。和Meta現有訓練系統相較,早期標竿測試顯示RSC的電腦視覺(jué)作業(yè)運算速度提升20倍,執行Nvidia Collective Communication Library(NCCL)的速度快9倍有余,而訓練大型NLP模型的效能則提升3倍。這表示一個(gè)擁有數百億參數的模型訓練完成時(shí)間,可以從過(guò)去的9個(gè)星期縮短為3周。
其他規格方面,RSC每座DGX節點(diǎn)透過(guò)Nvidia Quantum 1600 Gb/s InfiniBand 二層Clos網(wǎng)絡(luò )架構串連,以減少網(wǎng)絡(luò )超載(oversubscription)問(wèn)題。RSC儲存系統將采用175 PB的Pure Storage FlashArray、46 PB的Penguin Altus快取儲存及10 PB Pure Storage FlashBlade。
等年中打造完成時(shí),RSC將搭載1.6萬(wàn)顆GPU,而混合精度運算(mixed precision compute)效能達到將近5 Exaflops,使其成為全球最快超級電腦AI。RSC的快取及儲存系統設計,未來(lái)計畫(huà)可提供16TB/s頻寬及1 Exabyte儲存容量。
目前RSC已經(jīng)和去年5月美國國家能源研究科學(xué)計算中心(National Energy Research Scientific Computing Center,NERSC)揭示的勞倫斯伯克利國家實(shí)驗室的AI超級電腦Perlmutter相當,后者采用了6,159顆Nvidia A100 GPU。
HPCwire估計,據現行Top500超級電腦排名,Meta RSC第一階段約為第4名,完成后浮點(diǎn)運算速度約為227 petaflop/s,可望躍居全球第2快。