在AI浪潮的洶涌推動(dòng)下,大模型的迅猛發(fā)展對(duì)算力提出了近乎苛刻的要求。萬(wàn)億參數(shù)大模型與多模態(tài)訓(xùn)練的興起,促使算力集群跑步邁入“萬(wàn)卡協(xié)同”時(shí)代。
傳統(tǒng)算力架構(gòu)已難以滿足高效、低耗、大規(guī)模協(xié)同的AI訓(xùn)練需求,行業(yè)亟需一場(chǎng)技術(shù)革新。在此背景下,超節(jié)點(diǎn)(SuperPod)——這一由英偉達(dá)率先提出的Scale Up(縱向擴(kuò)展)解決方案,憑借其高性能、低成本、高能效等優(yōu)勢(shì),迅速成為全球科技巨頭競(jìng)逐的“新戰(zhàn)場(chǎng)”。
據(jù)中科院物理所介紹,超節(jié)點(diǎn)的英文名叫SuperPod,是英偉達(dá)最先提出的概念。作為Scale Up的當(dāng)前最優(yōu)解,它通過(guò)內(nèi)部高速總線互連,能夠有效支撐并行計(jì)算任務(wù),加速GPU之間的參數(shù)交換和數(shù)據(jù)同步,縮短大模型的訓(xùn)練周期。
在2025世界人工智能大會(huì)期間,從華為昇騰384超節(jié)點(diǎn)的“真機(jī)首秀”,到曦智科技光互連方案的“SAIL獎(jiǎng)?wù)酃稹?,中?guó)企業(yè)在超節(jié)點(diǎn)領(lǐng)域的全面開(kāi)花,不僅標(biāo)志著算力集群正式邁入“萬(wàn)卡協(xié)同”時(shí)代,更預(yù)示著AI基礎(chǔ)設(shè)施的競(jìng)爭(zhēng)已從單點(diǎn)突破升級(jí)為系統(tǒng)工程級(jí)的生態(tài)較量。
圖片來(lái)源:新華社
超節(jié)點(diǎn)成AI算力“新寵”
超節(jié)點(diǎn),究竟好在哪里?
一般而言,構(gòu)建大規(guī)模GPU集群,行業(yè)主要采用Scale Out(橫向擴(kuò)展)以及Scale Up(縱向擴(kuò)展)兩種方式。
有業(yè)內(nèi)人士指出,相較于傳統(tǒng)方案Scale Out,Scale Up在性能、成本、組網(wǎng)、運(yùn)維等方面存在優(yōu)勢(shì)。而超節(jié)點(diǎn)就是Scale Up的最佳方案。
“超節(jié)點(diǎn)架構(gòu)通過(guò)深度整合GPU資源,在超節(jié)點(diǎn)內(nèi)構(gòu)建起低延遲、高帶寬的統(tǒng)一算力實(shí)體,已成為支撐這一演進(jìn)的關(guān)鍵技術(shù)路徑?!北谪鹂萍糘CS超節(jié)點(diǎn)項(xiàng)目相關(guān)負(fù)責(zé)人董朝鋒對(duì)21世紀(jì)經(jīng)濟(jì)報(bào)道記者表示。
“當(dāng)前傳統(tǒng)風(fēng)冷AI服務(wù)器的功率密度已逼近極限。一個(gè)標(biāo)準(zhǔn)機(jī)柜塞滿8張高功耗GPU服務(wù)器,其散熱和供電挑戰(zhàn)巨大?!倍h指出。
在他看來(lái),超節(jié)點(diǎn)通過(guò)液冷等先進(jìn)散熱技術(shù),將數(shù)十甚至上百個(gè)計(jì)算單元整合在一個(gè)高度集成的機(jī)柜或機(jī)組中,極大地提升了算力密度和能源效率(PUE)。
中信建投研報(bào)對(duì)超節(jié)點(diǎn)市場(chǎng)前景持樂(lè)觀態(tài)度。其指出,超節(jié)點(diǎn)作為重要的產(chǎn)業(yè)趨勢(shì),已經(jīng)被國(guó)內(nèi)外眾多服務(wù)器選為下一代方案,同時(shí)大部分的超節(jié)點(diǎn)方案都會(huì)采用銅連接作為主要承載載體。
當(dāng)前,通信網(wǎng)絡(luò)中常見(jiàn)的連接方案包括光通信和高速電通信,無(wú)源DAC作為電通信的主要解決方案,不包含光電轉(zhuǎn)換器模塊,具有很高的成本效益和運(yùn)營(yíng)可靠性,成為實(shí)現(xiàn)短距離傳輸?shù)膬?yōu)秀解決方案。
目前的銅纜已經(jīng)實(shí)現(xiàn)224G以太網(wǎng)SerDes高速通信技術(shù)升級(jí),短距離傳輸性價(jià)比突出,在AI服務(wù)器高集成度的趨勢(shì)下,銅連接呈現(xiàn)一定的趨勢(shì)放量。
當(dāng)前,業(yè)界主流的超節(jié)點(diǎn)方案主要包括私有協(xié)議方案和開(kāi)放組織方案兩種,私有協(xié)議主要包括英偉達(dá)、Trainium方案、華為方案等。
“在英偉達(dá)方案中,GNVL72服務(wù)器采用大量的銅連接作為機(jī)柜內(nèi)部通訊方式,GNVL72機(jī)柜中不同的計(jì)算托盤(pán)間采用電纜進(jìn)行互聯(lián),內(nèi)部使用電纜長(zhǎng)度累計(jì)接近2英里,共有5000多條獨(dú)立電纜?!鄙鲜鲅袌?bào)指出。
而計(jì)算托盤(pán)內(nèi)同樣采用大量銅連接作為服務(wù)器內(nèi)的GPU芯片互聯(lián)。在開(kāi)放協(xié)議中,目前的開(kāi)放標(biāo)準(zhǔn)不止一個(gè),基本上都是以以太網(wǎng)技術(shù)(ETH)為基礎(chǔ),以太網(wǎng)技術(shù)最成熟、最開(kāi)放,也擁有最多的參與企業(yè)。
超節(jié)點(diǎn)開(kāi)放標(biāo)準(zhǔn)方面,中心建投指出,比較有代表性的是由開(kāi)放數(shù)據(jù)中心委員會(huì)(ODCC)主導(dǎo)、中國(guó)信通院與騰訊牽頭設(shè)計(jì)的ETH-X開(kāi)放超節(jié)點(diǎn)項(xiàng)目。在ETH-X的架構(gòu)中,分為Scale Up和Scale Out兩個(gè)主要組網(wǎng)部分,其中Scale Up網(wǎng)絡(luò)負(fù)責(zé)HBD內(nèi)部GPU之間的互聯(lián),HBD可以由一個(gè)或者多個(gè)高功率Rack組成,通過(guò)Scale Up進(jìn)行擴(kuò)展;多個(gè)HBD通過(guò)Scale Out的擴(kuò)展方式組成更大的GPU集群。
值得注意的是,該機(jī)構(gòu)提到,國(guó)內(nèi)字節(jié)、阿里、騰訊新一代服務(wù)器分別采用超節(jié)點(diǎn)設(shè)計(jì),預(yù)期將進(jìn)一步帶動(dòng)銅連接整體市場(chǎng)空間。
科技企業(yè)紛紛布局
面對(duì)超節(jié)點(diǎn)這一算力新領(lǐng)域,國(guó)內(nèi)科技企業(yè)積極布局。
其中,華為在超節(jié)點(diǎn)領(lǐng)域進(jìn)展顯著。今年5月23日,華為于鯤鵬昇騰開(kāi)發(fā)者大會(huì)上發(fā)布昇騰384超節(jié)點(diǎn),實(shí)現(xiàn)業(yè)界最大規(guī)模的384卡高速總線互聯(lián),具備超大帶寬、超低時(shí)延、超強(qiáng)性能的三大優(yōu)勢(shì)。
在2025世界人工智能大會(huì)上,華為首次展示了昇騰384超節(jié)點(diǎn)真機(jī)。
除了昇騰384之外,大會(huì)上,曦智科技聯(lián)合壁仞科技、中興通訊推出全球首個(gè)分布式光互連光交換GPU超節(jié)點(diǎn)解決方案——光躍LightSphereX。
記者獲悉,該超節(jié)點(diǎn)基于曦智科技分布式光交換技術(shù),采用硅光技術(shù)的光互連光交換芯片和壁仞科技大算力通用GPU液冷模組等構(gòu)建。
與此同時(shí),曦智科技與沐曦合作的光互連電交換超節(jié)點(diǎn)方案也在會(huì)上首次公開(kāi)亮相,進(jìn)一步豐富了超節(jié)點(diǎn)的技術(shù)路線。
而燧原科技的云燧ESL超節(jié)點(diǎn)系統(tǒng),在測(cè)試中表現(xiàn)出良好性能,單節(jié)點(diǎn)最高64卡全帶寬互聯(lián),采用液冷方案,目標(biāo)是高性價(jià)比、高密度、高能效。
而沐曦發(fā)布的旗艦GPU曦云C600,支持MetaXLink超節(jié)點(diǎn)擴(kuò)展技術(shù),并且內(nèi)置ECC/RAS多重安全防護(hù)模塊。
此外,記者獲悉,摩爾線程已經(jīng)建立了涵蓋AI訓(xùn)練智算卡、AI推理卡、AI超節(jié)點(diǎn)服務(wù)器及夸娥(KUAE)智算集群在內(nèi)的全棧AI智算產(chǎn)品線。
在2025世界人工智能大會(huì)召開(kāi)前夕,摩爾線程創(chuàng)始人兼CEO張建中提出構(gòu)建新一代AI訓(xùn)練基礎(chǔ)設(shè)施,為AGI時(shí)代打造生產(chǎn)先進(jìn)模型的“超級(jí)工廠”。
據(jù)張建中介紹,這座“AI工廠”的智能“產(chǎn)能”,由五大核心要素共同決定,其效率公式可概括為:AI工廠生產(chǎn)效率=加速計(jì)算通用性×單芯片有效算力×單節(jié)點(diǎn)效率×集群效率×集群穩(wěn)定性。
他指出,當(dāng)單節(jié)點(diǎn)效率達(dá)到新高度,如何實(shí)現(xiàn)大規(guī)模集群的高效協(xié)作成為新的挑戰(zhàn)。摩爾線程自研KUAE計(jì)算集群通過(guò)5D大規(guī)模分布式并行計(jì)算技術(shù),實(shí)現(xiàn)上千節(jié)點(diǎn)的高效協(xié)作,推動(dòng)AI基礎(chǔ)設(shè)施從單點(diǎn)優(yōu)化邁向系統(tǒng)工程級(jí)突破。
在業(yè)內(nèi)人士看來(lái),當(dāng)單點(diǎn)突破升維為體系化競(jìng)爭(zhēng)力,中國(guó)超節(jié)點(diǎn)技術(shù)正在為全球人工智能發(fā)展鋪設(shè)一條兼具性能與包容性的新賽道,其價(jià)值有望持續(xù)釋放。