C114訊 9月20日消息(水易)大模型訓練需要大算力的支撐,GPU性能迭代也隨之加速。即便如此,單片GPU的性能永遠無法跟上大模型的需求,智算集群成為必選項,千卡已是常態,萬卡如火如荼,十萬卡成為目標。同時,為充分發揮每一分算力的效能,智算網絡的技術演進成為關鍵。
這一輪智算網絡建設,為滿足大模型更大數據量、更快速度的計算任務,更高端口速率和交換容量的交換機成為剛需,隨之也帶來了能耗挑戰。目前已有專家指出,以電力為代表的能源可能成為掣肘智算中心建設的瓶頸。
數據顯示,在網絡設備中,以光模塊為代表的關鍵器件是能耗大戶,為了實現高速傳輸與低功耗之間的平衡,LPO等光互連技術受到重視,已經有頭部互聯網企業開始試點部署,展現了良好的光鏈路性能。
作為致力于推動標準化聯接促進智算網絡創新的“領頭羊”,新華三基于400G智算交換機與十余家模塊廠商的DSP&LPO模塊現場互聯測試,良好的測試結果充分體現了新華三智算交換機的穩定性與兼容性,基于光互連技術為智算網絡建設提速、降耗,全面賦能AI產業高速發展。
聯調:促進LPO技術驗證
從光模塊的技術演進來看,隨著速率的不斷提升,為確保信號在傳輸過程中的準確性和可靠性,業界通過引入DSP芯片,對本端/多端的交換機電信號進行整形重塑,降低誤碼率。因此在高速光模塊內部,DSP一直是必備器件。
不過,DSP的不足之處就是成本高、功耗大,統計顯示,傳統DSP芯片方案會占模塊50%以上的功耗。光模塊速率的不斷提升,功耗也會數量級的攀升,對智算中心帶來極大的技術挑戰,也與綠色低碳的發展理念相悖。
如何降低光模塊功耗,最直接的手段就是去掉或減少DSP在光模塊內部的使用。LPO去掉了傳統DSP模塊中的DSP芯片,利用交換機芯片進行電信號的處理。同時,LPO仍然保持可插拔模塊形態,可重用現有成熟的部分光模塊產業鏈,最大限度的實現低功耗、低時延、低成本和高可靠。
綜合來看,LPO是一個綠色節能的技術,業界也認為400G/800G周期的下一波需求將會是LPO,解決的重點就是功耗挑戰。不過,真正落地還有一系列的挑戰,首先是標準,LPO由于無DSP,互操作性存在挑戰,目前產業界已經發起LPO MSA,建立相關標準規范。
更為重要的是如何確保以上提到的效果能實現。今年的CIOE中國光博會期間,某頭部測試測量廠商在接受C114專訪時談到,LPO將光模塊DSP拿掉之后,將會強烈依賴交換機芯片SerDes,這對測試策略產生巨大的影響,LPO如何對標交換機的性能指標,是最大的挑戰。
新華三認為,LPO模塊需要和設備聯合起來,才能真正實現LPO所帶來的效果。新華三同鈞恒科技進行聯合400G QSFP112 LPO開發,通過模塊底層光電芯片合理選型、SI仿真優化、系統級參數調優、完善的測試策略,充分保證了LPO模塊與交換機的良好適配和快速部署。
兼容:加速LPO規模商用
當然,聯合開發并不意味著只能適配某一特定廠商的模塊。此次新華三作為設備廠商,同時跟十余家光模塊廠商完成了DSP&LPO模塊現場互聯測試,這是國內第一次交換機設備與十多家光模塊的批量實測,充分體現了新華三在生態合作方面的廣度。
值得一提的是,考慮到前文提到了聯合調優的重要性,新華三還打造了多種智能軟件調優方案,助力不同廠商的LPO模塊與新華三主機的適配調優,以實現更良好的兼容性,為不同端口走線的LPO模塊提供良好的電信號驅動能力。
據了解,在本次DSP&LPO模塊互聯測試中,數據顯示不同廠商的LPO模塊在H3C S9827上的誤碼率均低于IEEE定義的門限要求,且經過與主機適配調優后的LPO模塊具有更好的性能參數、誤碼率更貼近DSP模塊,也進一步說明主機與LPO適配的重要性。
不止于此,新華三智算交換機的產品布局豐富,H3C S9827系列能夠實現對各廠家的不同模塊規格(VR4、DR4等)、不同芯片方案(DSP、LPO)、不同激光器方案(EML、硅光)、多種應用模式(一對一、一分二)的QSFP112模塊的類型讀取,可靈活智能識別端口模塊模式。
回頭看LPO技術的初衷,尋找高速傳輸與低功耗之間的平衡。更高速率在短期內挑戰不大,難的是低功耗。目前業界對于綠色光互連技術探索主要從光模塊功耗、網絡架構設計以及系統散熱方案三方面入手。
LPO是業界對于降低光模塊功耗的探索,而從系統散熱的角度看,今年的CIOE中國光博會期間,C114也看到頭部光模塊廠商都推出了相應的浸沒式液冷方案,多管齊下滿足智算中心低功耗的需求。
新華三積極探索與實踐多樣化的節能降耗策略,將綠色低碳理念融入交換機產品研發設計當中,H3C S9827系列不僅支持全端口LPO可插拔模塊應用,還具備風冷液冷兼容設計,通過LPO與液冷技術的融合,實現整機功耗降低25%~40%,滿足PUE≤1.14的要求。
開放:踐行標準化聯接
回到文章開頭提到的智算網絡的創新變革,新華三始終倡導標準化聯接,創新性提出“算力×聯接”的理念,通過開放、標準的聯接技術,構建開放多元的智算生態,滿足人工智能應用對海量多元異構算力的需求。
光模塊是其中智算網絡的“關鍵環節”之一,也是智算生態產業中的一環,本次與十余家光模塊廠商的現場實測,進一步證明了新華三交換機具備標準開放的特性。另外,與鈞恒科技聯合研發的LPO模塊,其內部的兼容設計允許多芯片方案并行開發和驗證。
據悉,在追求高效率、高能效、低功耗的AI智算應用的解決方案的道路上,新華三持續精進,在當下趨于成熟化的400G LPO解決方案的火熱探討中,新華三也已具備800G LPO的高密智算交換機,以前瞻性視角推動智算網絡的發展。
除了創新的LPO交換機產品外,新華三打造的算力集群核心交換機H3C S12500 AI將傳統框式設備的控制引擎、交換網板、業務板卡分別獨立為盒式設備,通過高速光模塊互聯,滿足靈活組網需求,斬獲第八屆未來網絡大會“創新科技成果獎”殊榮。
與此同時,新華三還推出了《智算網絡異構連通專項測試》標準,現已完成包括GPU、光模塊、網卡等在內等全異構硬件平臺連通性驗證,以及不同技術方案間的聯調適配,進一步推動國內智算產業的生態協作。
面向未來,新華三也將持續與更多的光模塊廠商合作,打造開放市場生態,共研高品質模塊組件,為客戶提供從主機到互連組件的高可靠性、高穩定性、高兼容性的全套方案產品,促進光通信產業的發展,滿足人工智能應用對算力的需求,為百行百業的數智發展注入強勁動能。