華為中國合作伙伴大會2025于3月20日在深圳開幕。3月21日上午主論壇上,華為董事、ICT BG CEO楊超斌指出,數據中心網絡因負載不平衡和擁塞,集群效率通常會降低20%以上。他還提到,美國Meta在訓練Llama 3模型時,54天內發生了419次故障,平均每3小時一次,其中80%的故障由硬件問題引起,尤其是處理器互聯問題。針對這些問題,華為推出了NSLB(網絡負載平衡)方案,通過智能化調度,將網絡負載效率提升至95%以上,訓練效率提升10%。科大訊飛應用該技術后,大模型訓練時間從34天縮短至25天。此外,華為還設計了高可靠性光模塊,用于數據中心場景,可靠性提升10倍以上。楊超斌還提到,中國移動去年的集群可靠性遠高于Meta Llama 3模型的訓練集群,后者平均每3小時故障一次,而中國移動的集群二十幾天未出現故障。
楊超斌:數據中心效率提升95% Meta Llama 3頻繁故障凸顯差距
免責聲明:本文僅代表作者個人觀點,與C114通信網無關。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號
C114 通信網 版權所有 舉報電話:021-54451141