C114訊 1月17日消息(趙婷婷)AI時代已經來臨。大模型等新興AI應用需求海量的算力支撐,一座座智算中心拔地而起,規模龐大的萬卡集群逐漸投入商用。如何更好地實現智算中心互聯,服務AI應用創新發展,業界做了大量研究工作。
1月16日,作為“2025中國光通信高質量發展論壇”的開篇之作,“智算中心互聯:算網協同,構筑智算互聯新底座”線上研討會順利召開。
會上,中國信息通信研究院技術與標準研究所(以下簡稱中國信通院標準所)所長張海懿在演講時指出,當前,我國主管部門持續發布算力基礎設施相關政策,引導算力基礎設施高質量發展。AI大模型及相關應用推動智算中心向超萬卡及以上集群發展,智算中心內互聯、智算中心間互聯、智算應用支撐等高質互聯相關技術成為關注熱點。接下來,她介紹了相應關鍵技術發展的具體情況。
智算中心內互聯
張海懿指出,智算中心內互聯一方面要支撐萬億及以上量級參數量大模型訓練,同時還要滿足超大規模組網、大帶寬、超低時延、高可用性等需求。
現階段,智算中心內互聯相關協議和技術競相發展,片間互聯開放與專用模式持續競爭。智算中心內部組網以IB和基于以太網的多種方案并存方式發展,前者是以性能取勝,后者因其開放性和性價比,在 AI大模型訓練組網的占比也在進一步提升。
大規模AI訓練需要高效協同智算中心內軟硬件資源,快速、高效、可移植的集合通信庫成為影響智能計算效率的重要因素。目前國內外頭部廠商主要以各自研發獨有的高速集合通信庫為主,整體上捆綁特定芯片。為進一步高效支撐智算部署與應用,集合通信庫異構兼容或成未來趨勢。
同時,大帶寬需求助推高速光模塊迭代加速。數據中心直調直檢光模塊速率約3~4年更新一代,AI智算引入后迭代周期呈現縮短趨勢,當前處于800Gb/s速率為主階段,預計未來1~2年進入1.6Tb/s速率,2030年3.2Tb/s速率將走向規模應用。在AI應用的驅動下,高速光模塊應用需求持續強勁,國內外標準化布局加速向T+量級演進延伸,同時為保障互聯質量,智算中心對光模塊誤碼率等指標可能會提出更高要求。
面對低能耗和低時延等應用需求,線性驅動可插拔模塊(LPO)及其應用持續研究和探索。服務器機柜間互聯采用光學方式,單通道速率正在從112G向224G演進,線性方案是降低能耗的有效途徑。當前112G/lane LPO應用處于探索階段,兼容性及標準化問題有待持續研究評估,224G/lane LPO預計2025年進行互通展示,考慮到性能和能耗的均衡等問題,預計224G/lane可插拔方案傾向于線性接收可插拔光模塊(LRO)的可能性較大。
除此之外,芯片級光互聯提供高密度低能耗互聯新方案。芯片級光互連相較電互連或傳統可插拔模塊互連方式,具有大帶寬、低能耗、高集成等諸多優勢。片間光互聯中,CPO主要用于交換網絡,OIO主要用于算存網絡,近期AI集群發展推動OIO熱度迅速上升。目前,全球領先的硅光平臺依托其強大的芯片加工制造和先進封裝能力,在芯片級光互聯方面不斷取得新突破。
另外,從目前發展情況來看,智算與光互聯雙向賦能,光互聯作用日益凸顯,光進銅退趨勢進一步持續,但短距的電互聯依靠其高可靠與低成本等特點,生命力依舊旺盛。另外,考慮能耗、靈活性和可靠性等大模型訓練及推理需求,智算中心內的全光交換組網和連接可靠性成為業界的持續關注點。
智算中心間互聯
智算中心間互聯的典型需求是長距離、高吞吐量、算間高效協同等,需要通過長距無損、極低故障率的互聯能力來支撐構建分布式智算集群。目前發展情況如下:
一是大帶寬、低時延和高可靠需求凸顯。智算多集群分布式訓練可期,算間互聯業務需求包括距離相近的多個智算中心間互聯、大規模樞紐算力節點間的互聯以及邊緣與核心云之間的互聯與協同,來實現分布式訓練、訓練推理協同、數據搬運等場景。同時,多種應用需要高質量的互聯,包括大規模樞紐算力節點間的數據中心互聯、相近物理位置多數據中心間互聯、以及邊緣與核心數據中心間協同等。
二是智算分布式訓練應用試驗加速探索。現階段多家已經開展智算分布式訓練實驗/試驗,但是分布式應用仍面臨多重技術挑戰,例如廣域網絡性能需求、運維管控復雜性、建網成本等都是制約因素,需要在多層多域單點技術突破、跨層跨域多技術協同融合等方面持續推進技術創新。
三是干線啟動400G規模部署,城域推動800G+逐步試驗。目前400G技術體系基本完善,我國運營商逐步啟動干線場景規模部署,目前400G系統中的 WSS、OTU已實現C+L波段一體化設計, 但一體化OA技術方案仍在探索驗證之中。對于更高速率的傳輸技術,業界加快800G/1.6T技術標準研制,OIF和ITU等標準化組織正在開展相關項目研究工作,產業界也已經啟動試點驗證。
四是新型光纖加速助力構建高質量網絡。一方面,G.654.E等超低損光纖成為智算中心間互聯應用優配,適配400G及以上超高速長距離、C+L多波段大容量等應用,支撐優質互聯需求,是網絡傳輸性能提升的關鍵;另一方面,空芯光纖擁有諸多優勢,發展潛能可期,目前仍需突破制備工藝、工程部署等諸多難題,后續發展仍需業界持續加強協同,助力鍛造未來超低時延算力網。
智算應用支撐
智算業務支撐方面,主要包括入算和端到端協同管控等功能。全光接入為用戶提供靈活品質入算,主要包括家庭園區萬兆全光入算、中小企業便捷一跳入算、大企業高品質專線入算等。同時,通過端到端協同管控助力用戶快速入云入算。在接入側,進一步增強用戶感知能力;
在數據中心互聯側,實現基于意圖的智能化管控;在數據中心網絡側,實現整個的數據中心網絡和數據中心互聯的協同。整體來看,用戶入算及智算訓練等業務調度需要算網協同管控,綜合考慮用戶、組網以及算力提供者多方因素,在任務需求與算網資源綜合約束下,對多層級設備進行彈性統一調度,在用戶和算力服務之間動態按需建立連接。
另外,網絡大模型成為網絡自智邁向L4,甚至是更高階的關鍵技術。運營商、設備/軟件商紛紛布局網絡大模型,利用大模型高效的理解和生成能力增強網絡自智能力,加速智算網絡自智能力邁向高階自智L4。
張海懿最后表示,中國信通院標準所將持續開展智算中心互聯相關技術產業發展、算力網絡性能監測、算力接入1ms城市行動計劃等工作,希望與業界一道協同構建我國智算互聯網絡技術產業創新發展新生態,助力我國光通信行業高質量發展。