C114訊 5月20日消息(九九)5月17日,2025世界電信和信息社會日“智算產業創新發展論壇”在南昌舉辦。中國移動研究院院長黃宇紅發表題為《超萬卡智算集群技術創新突破賦能人工智能縱深發展》的演講。
黃宇紅指出,當前通往通用人工智能(AGI)的道路上存在兩條路徑,一條是通過“大模型+大算力+大數據”探索模型能力上限;一條是“模型算法+智算設施”深度融合優化,探索成本下限。兩條路徑不僅推高算力需求,也對智算集群的設計提出新要求。
黃宇紅同時指出,目前,智算領域呈現三大發展趨勢:預訓練和后訓練技術推動算力需求激增,集群規模向超萬卡演進,追求極致算效提升;DeepSeek引領AI普惠發展,加速智算格局發生根本變化;軟硬垂直優化開創大模型發展全新路徑。
黃宇紅介紹,近年來中國移動基于“N+X”智算布局積極推進智算中心建設,已建成兩大技術領先的萬卡集群,并實現了AI基礎設施的一體化供給和服務。面向人工智能時代發展新要求,中國移動前瞻布局超萬卡集群的原創技術體系,面向集群算效、生態融通等方面攻關超萬卡集群構建的系統工程和科學難題。
在算效提升方面,互聯技術是提升集群算效的關鍵。目前,業界由于缺乏開放互聯技術,GPU無法向超節點演進,中國移動原創提出全向智感互聯OISA、全調度以太網GSE,助力國產智算集群效能躍升。其中,OISA,通過定義協議棧、報文、流控及重傳等機制,推動GPU互聯能力提升10倍以上,已經在國內形成了廣泛的互聯生態。全調度以太網GSE立足兩大場景,圍繞兩顆芯片,攜手產業伙伴持續攻關GSE關鍵技術,加速構建GSE產業生態,滿足超萬卡甚至未來超十萬卡智算集群的建設需求。
在生態融通方面,打造基礎軟件系統將成為驅動算法和基礎設施深層次協同的關鍵。針對各廠商智算生態互不兼容,應用難以跨架構遷移,制約整體訓練和推理效能的問題。中國移動原創提出算力原生和異構混訓技術,提升基礎設施對模型的適配能力。其中,芯合算力原生通過構建異構算力統一抽象機制與跨架構平臺,實現多樣算力一體適配,應用一次開發,跨芯一鍵部署遷移,目前已支持7家GPU跨架構高效推理;異構混訓技術通過創新任務非均勻切分框架,實現異構算力聚合訓練,開辟了以軟補硬引領生態發展的全“芯”發展路徑。