5月19日,面向大模型訓(xùn)練用戶數(shù)據(jù)的高安全需求,中國(guó)移動(dòng)研究院原創(chuàng)提出基于HIC-OTN(Hitless Intelligent Computing OTN,無(wú)損智算OTN)的新型存算拉遠(yuǎn)技術(shù)架構(gòu),并聯(lián)合中國(guó)移動(dòng)湖北公司、華為技術(shù)有限公司在中國(guó)移動(dòng)智算中心(武漢)完成了業(yè)界首次HIC-OTN承載存算拉遠(yuǎn)240公里現(xiàn)網(wǎng)技術(shù)試驗(yàn),構(gòu)建了用戶數(shù)據(jù)本地化的高安全大模型訓(xùn)練新范式,在基于流水并行(PP)的千億級(jí)參數(shù)大模型現(xiàn)網(wǎng)240公里智算互聯(lián)下實(shí)現(xiàn)了等同單節(jié)點(diǎn)訓(xùn)練效率99%以上的高效訓(xùn)練,是探索智算中心技術(shù)和業(yè)務(wù)應(yīng)用發(fā)展的重要里程碑。
伴隨大模型技術(shù)的跨越式發(fā)展,千行百業(yè)的智能化轉(zhuǎn)型升級(jí)需求爆發(fā)涌現(xiàn)。但是,大模型訓(xùn)練的算力需求越來(lái)越高,國(guó)內(nèi)外大型科技公司投建超萬(wàn)卡甚至超十萬(wàn)卡集群,不僅建設(shè)投入成本高,還需要破解提升大規(guī)模算力使用效率的技術(shù)難題。廣大中小微行業(yè)用戶難以跨越自建大型智算中心的投入和技術(shù)門檻,而租用智算服務(wù)又面臨自身私密數(shù)據(jù)傳輸至外部智算中心進(jìn)行大模型訓(xùn)練的安全風(fēng)險(xiǎn),導(dǎo)致迫切的AI賦能需求與應(yīng)用落地規(guī)模的嚴(yán)重失配。
中國(guó)移動(dòng)研究院提出了基于HIC-OTN的存算拉遠(yuǎn)原創(chuàng)技術(shù)架構(gòu),在用戶側(cè)部署“微算力”作為數(shù)據(jù)訓(xùn)練的入口,將訓(xùn)練流程進(jìn)行切分,用戶數(shù)據(jù)仍存儲(chǔ)在本地,僅通過(guò)HIC-OTN傳遞模型訓(xùn)練中間值至服務(wù)商智算中心的“大算力”進(jìn)行訓(xùn)練,同時(shí)滿足了用戶大模型訓(xùn)練的低成本、高安全需求。其中,面向存算拉遠(yuǎn)后對(duì)傳輸網(wǎng)絡(luò)的高可靠需求,創(chuàng)新HIC-OTN無(wú)損傳輸機(jī)制,重構(gòu)設(shè)備轉(zhuǎn)發(fā)和存儲(chǔ)功能,實(shí)現(xiàn)由傳統(tǒng)OTN保護(hù)倒換50ms業(yè)務(wù)中斷到“0丟包”的性能提升。在此次業(yè)界首次HIC-OTN承載存算拉遠(yuǎn)240公里現(xiàn)網(wǎng)技術(shù)試驗(yàn)中,在用戶側(cè)部署16張GPU卡作為千億級(jí)參數(shù)大模型PP訓(xùn)練的入口,在運(yùn)營(yíng)商智算中心部署48張GPU卡進(jìn)行集中化、規(guī);(xùn)練,相距240公里的兩端通過(guò)800G HIC-OTN進(jìn)行大帶寬、無(wú)損互聯(lián),拉遠(yuǎn)后的協(xié)同訓(xùn)練效率達(dá)到等效單集群訓(xùn)練效率99%以上。
中國(guó)移動(dòng)研究院段曉東副院長(zhǎng)表示,基于HIC-OTN的存算拉遠(yuǎn)原創(chuàng)技術(shù)架構(gòu)是面向中小微行業(yè)用戶大模型訓(xùn)練需求的全新探索,有望形成智算普惠發(fā)展的技術(shù)和應(yīng)用新范式,本次試驗(yàn)基于HIC-OTN新型技術(shù)體系在超大帶寬、超低時(shí)延、超高可靠光傳輸的技術(shù)優(yōu)勢(shì),訓(xùn)練效率等同單節(jié)點(diǎn)訓(xùn)練99%以上,實(shí)現(xiàn)了用戶側(cè)“微算力”與服務(wù)商“大算力”的高效協(xié)同。
中國(guó)移動(dòng)面向AI賦能千行百業(yè),持續(xù)推進(jìn)原創(chuàng)技術(shù)創(chuàng)新和發(fā)展。本次試驗(yàn)有力探索和驗(yàn)證了基于HIC-OTN的存算拉遠(yuǎn)技術(shù)架構(gòu)的可行性和先進(jìn)性,后續(xù)將繼續(xù)推進(jìn)產(chǎn)學(xué)研多專業(yè)在智算協(xié)同光互聯(lián)技術(shù)方面的深度協(xié)同,以構(gòu)建技術(shù)先進(jìn)網(wǎng)絡(luò)助力AI高速發(fā)展。