C114訊 5月24日消息(岳明)CIOE中國光博會與C114通信網昨日聯合舉辦的“2024中國光通信高質量發展論壇”第四場研討會——“AI時代:數據中心光互聯技術新趨勢”正式上線。會議邀請電信運營商、互聯網服務商、云計算廠商、模塊芯片商、科研院所、業內專家,深入探討光互聯和全光交換的應用及其面臨的機遇和挑戰。
會上,百度資深工程師周谞應邀作了題為《數據中心光通信技術趨勢》的主題演講,重點介紹了數據中心之間DCI光互聯、數據中心內DCN光互聯,以及在現有大模型下,OTN與其結合等光通信技術問題。
從靈活系統到智能化運維,助力DCI光互聯
周谞表示,在數據中心之間DCI光互聯方面,城域單波傳輸技術大致每3~4年有一次迭代,從2017年至2019年的單波200G,波道間隔50GHz,到2020至2023年單波400G,波道間隔75GHz,到現在已經到來的單波800G,波道間隔150GHz,單波速率的提升能帶來成本的降低,也存在速率迭代年限與機房系統使用年限不匹配的矛盾。傳統方案中,固定的間隔和限定速率,在應用更新一代的單波傳輸技術時,使系統難以引入更高速率的電層板卡。
2023年,百度引入了FlexGrid系統,其靈活網格方案波道可變功能,取代傳統使用的固定間隔的AWG功能。靈活系統方案可以實現在無需改造條件下,適應不同速率,實現400G和800G系統的平滑升級。根據場景,選擇最優的速率,整個系統的頻譜得到更好利用,以期在2024年這一800G速率換代時期,取得更好的收益。
此外,隨著數據中心之間業務云化,以及云規模的日漸增大,同一云業務可能被部署在不同數據中心,這就對數據中心之間傳輸穩定性提出更高要求。周谞表示,傳統傳輸系統保護倒換時間大致在50ms,這一時間在電信領域存在近20年,而通過高速磁光開關取代傳統的機械式光開關,及優化DSP等,第一次實現了5ms高速保護倒換時間。同時,在設備出現業務中斷的情況下,通過傳輸設備主動介入技術,實現整體網絡的相對穩定。
IP over WDM方面,隨著光子集成技術的發展,通過封裝技術實現光信號直接從交換機出來后具備長距離傳輸能力,改變傳統的需要額外電層設備完成線路到客戶的轉換過程。當然,這需要IP+光統一網管協同,適用機房之間近距離傳輸。同時,這種相關光模塊對接上,測試中面臨著個別廠商模塊抗裂化能力差,不同廠商對接上的難題。
在傳輸的運維和管理上,大部分現有廠商采用的是開放式光傳輸系統的方案,所有設備通過統一建模,完成設備與網管之間的交互,再通過統一的網管實現對所有設備的管理,提升自動化開發效率。從傳統運維,各廠商自己完成從網管到設備,到統一化運維,統一網管,統一運維培訓體系,再到智能化運維,本質上是為了更進一步提高效能。
CPO未來有可能成為GPU互聯的重要方案
周谞表示,在AI時代,整個數據中心內部對光互聯的需求也非常大。HPN網絡主要是針對GPU訓練集群的專門網絡,其里面存在多種訓練方式,以實現不同GPU之間信息共享,而GPU 卡之間的通信帶寬速率的提升,會帶來訓練時間的減少,以及成本的降低。但是大模型參數增長非常快,數據中心內光寬帶如何跟上節奏,成為非常重要的議題。以 IB/RoCE 為代表的跨GPU 服務器互聯技術,當前速率在400G/800G時代,伴隨訓練規模的變大和算力的提升,未來向1.6T及更高速率發展。雖然現有的交換機加光模塊形式能滿足一些需求,但卻面臨更大的成本和功耗壓力,這就引出了對線性直驅光模塊(LPO)的需求。
相比傳統光模塊,LPO將DSP功能集成到芯片中,降低了模塊的功耗和成本,具有良好的可維護性。當然,除了傳統光模塊和線性直驅光模塊方案外,還有其他也有一些方案,比如聯合封裝技術(CPO)方案,其將光模塊功能集成到芯片上,因光子器件離芯片更近,可實現更低的功耗。隨著GPU互聯對功耗,帶寬的要求,CPO將有可能成為GPU互聯的一種重要方案。
OTN與大模型結合方面,百度建立了文心大模型,訓練方式包括提示詞工程提高大模型喚起的準確率、更高級別的基于人類反饋的強化學習等,讓大模型更了解應用場景。整個開發流程可以理解為,用自己的數據生成,注入到大模型訓練,得到更理解應用場景的一個大模型,比如OTN大模型,再把這個大模型部署到整個應用環境中,去完成大模型推理等。
周谞表示,OTN和大語言模型的相互結合,是值得去關注的一個方向。因為傳統的運維更多的是基于GUI的界面,即圖形界面,隨著大語言模型的興起,其實可以很好的實現人機基于自然語言的對話,慢慢地可能會形成GUI和LUI,即圖形交互和自然語言交互的一個運維場景,得到更加懂我們的OTN大模型。