在ChatGPT掀起的人工智能(AI)熱潮中,核心網正朝著智能化方向大步邁進,這一趨勢已不可阻擋。作為核心網的算力支撐,網絡云的智能化升級扮演著至關重要的角色。AI技術的飛速發展,不僅讓核心網變得更加高效智能,也對網絡云的算力、存儲和網絡架構提出了新的挑戰與要求。
算力基石的智能化變革
AI訓練和推理任務對算力要求極高,需要高性能、大規模并行、低時延互聯的支持。這促使網絡云從傳統的CPU計算模式向DPU、GPU、NPU等異構計算模式轉變。異構計算不僅支持算力資源的靈活調度、高性能并行存儲訪問以及高速無損網絡等技術,還確保了資源供應的穩定高效。未來,網絡云算力基石的重要發展方向將是隱藏底層GPU異構資源的細節,實現上層AI框架應用與底層GPU算力類型的無縫對接。
在部署方式上,AI+網絡云實現了通用計算和智能計算資源的混合部署。這種部署方式既滿足了核心網網元應用對通用和智能計算資源的雙重需求,又通過中心預訓練、區域精調、邊緣推理的分布式部署和協同模式,構建了與傳統通用計算網絡云相同的中心+區域+邊緣分布式架構。這種架構的智能化平滑升級,完美匹配了核心網智能化的需求。
資源池化技術提升基礎設施效率
智算資源池化是打造高效、靈活、可擴展智算中心的關鍵所在,主要包括算力池化和內存池化兩大技術。
算力池化通過軟件定義硬件加速,將多家廠商的物理GPU資源整合成一個統一的虛擬GPU資源池。這一技術不僅實現了GPU資源的高效聚合、調度和釋放,還通過GPU虛擬化、多卡聚合、遠程調用、動態釋放等多種功能,確保了AI模型從開發到部署的全流程算力供給。算力池化技術顯著提高了GPU資源的利用率,降低了智算中心算力服務的成本,提升了整體效率。
內存池化技術則通過構建統一的內存池,實現了對多個物理顯存、內存設備及資源的統一調度、監控和管理。這一技術不僅提升了系統的響應速度和數據處理能力,還通過CXL等高速互聯協議,實現了CPU與加速器之間內存的一致性訪問和共享,進一步增強了系統性能。
智算存儲滿足高效訓推任務需求
在大模型開發的各個環節中,存儲系統面臨著多元存儲、海量存儲、高并發性能等多重挑戰。智算存儲通過構建統一的存儲架構,滿足了AI流水線不同階段的需求,提供了多元數據存儲能力和多種協議互通能力。同時,借助硬件加速和軟件加速技術,智算存儲大幅降低了數據訪問時延,提升了AI模型訓練和推理的效率。
分布式智算存儲系統不僅支持分布式AI架構的部署和運行,還提供了跨節點的數據復制和備份功能,確保了數據的安全可靠。這一技術為AI創新和應用落地提供了堅實的基礎。
開放高通道無損網絡降低并行計算通信成本
隨著AI大模型參數規模的快速增長,并行計算技術成為加速模型訓練的重要手段。然而,同步開銷和通信延遲問題也隨之凸顯。為了解決這一問題,業界開始探索超大規模智算集群中的高速互聯技術。
在Scale-up網絡方面,通過基于交換拓撲的GPU高速開放互聯技術,GPU之間的通信從傳統的點對點互聯模式轉向交換互聯模式。該技術顯著提升了單機的擴展性和通信帶寬,突破單機8卡的限制,從而大幅提升單節點算力,解決TP受限問題。
在服務器間互聯方面,超節點服務器Scale-Out互聯網絡可解決模型訓練通信瓶頸,提升整體效率。RoCE作為主流技術,是基于標準以太協議得開放解決方案,但各廠家有各自的增強方案,存在與網絡設備難解耦的問題。智算資源管理平臺與RoCE網絡管控協同,自動化部署參數面網絡,基于開放的RoCE協議進行增強,提供通用、開放、高性價比的高性能無損方案,是解決上述困難的有效解決思路。
算力原生構建異構算力解耦生態
隨著智算技術的迅猛發展和新興應用的不斷涌現,異構開放環境成為未來發展的必然趨勢。算力原生架構通過構建統一標準的算力抽象模型和編程接口,實現了底層GPU異構資源細節的隱藏和上層AI框架應用與底層GPU類型的完全解耦。
算力原生架構包括算力池化層和算力抽象層。算力池化層將各類硬件資源整合為一個統一的資源池,并通過構建底層異構硬件的統一抽象模型,實現了通過統一的度量值申請算力。算力抽象層則通過原生堆棧和接口,實現了對底層算力資源的感知和控制,以及原生程序的加載、解析和執行。
分布式混池部署滿足核心網應用需求
由于核心網網元對通用計算和智能計算資源都有需求,AI+網絡云實現了通用計算和智能計算資源的混合部署和分布式部署。這種部署方式不僅滿足了核心網網元應用的綜合資源需求,還通過三級部署模式(樞紐大模型訓練中心、區域訓推融合資源池、邊緣訓推一體機),靈活應對了不同算力特征和部署位置的要求。
AI+網絡云的部署模式不僅提升了大規模集群的算力和能效,還提高了訓練可靠性,滿足了基礎大模型預訓練、行業大模型精調以及客戶場景大模型微調等多種需求。同時,通過開放解耦能力和應用生態的構建,AI+網絡云為智算技術的多元化發展和應用創新提供了強大支持。