近日,在中國移動集團公司指導下,中國移動研究院聯合中國移動黑龍江公司在全球運營商最大單集群智算中心——中國移動(哈爾濱)數據中心完成首個面向PP(流水線并行)訓練的OTN承載百公里級智算分布式協同現網技術試驗。本次技術試驗首次完成了基于800G OTN的104km跨智算集群分布式PP訓練,實現了等同單節點訓練效率98%以上的高效協同訓練,是業界首次百公里級跨集群PP訓練可行性技術驗證探索。
隨著智算集群規模向超萬卡演進,單智算節點的持續擴容將面臨電力供應、機房空間的巨大挑戰,而且智算中心分地域、分時期、分階段建設現象較為普遍。智算分布式協同是破解單節點集中部署受限、算力資源孤島等難題的重要解決方案。而如何將分布式部署的智算節點進行高效的互聯,充分發揮算力資源的最大效能,是業界亟需研究的關鍵問題。OTN具有大帶寬、穩定低時延、高可靠等傳輸和組網技術特點,已廣泛應用于骨干傳送和城域傳送網絡,是構建跨集群分布式訓練的潛在互聯技術。而分布式智算對光網絡的新需求與采用的DP(數據并行)、PP等訓練并行模式直接相關,其中,PP是基礎大模型訓練的最常用并行方式之一,相比DP具有通信頻次高、通信時間不可全部掩蓋等更高難度,其拉遠可行性在業界存在較大分歧。
中國移動研究院面向智算分布式協同場景持續開展技術創新,完成業界首個面向PP訓練的OTN承載百公里級智算分布式協同技術現網試驗。在試驗中基于800G OTN互聯的兩個智算集群上運行700億級參數的大型基礎語言模型,在64張GPU卡、4個PP域分別在相距104km的兩個節點部署場景下,實現了等同單節點訓練效率98%以上的高效協同訓練,是業界首次驗證了OTN承載基于PP的百公里跨集群訓練可行性,為分布式智算技術演進提供了全新技術路線和詳實試驗數據。此外,還創新提出了面向智算分布式協同的OTN無損倒換技術方案,通過芯片級算法實現傳輸鏈路斷纖、誤碼時訓練效率的無損和無感知。
自2023年起,中國移動研究院聯合國內合作伙伴,開展跨集群分布式訓練互聯技術攻關,創新提出基于OTN的智算分布式協同架構,首次完成2-100公里不同距離多場景下OTN承載分布式智算技術試驗,相關成果在光通信頂會ECOC發表。中國移動后續將圍繞智算分布式協同深入推進關鍵技術攻關、原型研發與試驗驗證,探索分布式智算中心新模式。