繼不久前率先突破國產算力集群上MoE模型的大規模跨節點專家并行集群推理,公布業界首個基于國產算力的MoE模型訓練推理方案后,科大訊飛與華為昇騰聯合團隊持續攻關,通過多種優化手段提升“飛星一號”平臺上MoE模型集群推理的性能上限,并在近期實現了大規模專家并行集群推理性能翻番。這也再次證明了國內廣泛部署的國產算力“敢打、能打”的深厚實力。
在上一個版本算子和通信優化的基礎之上,聯合團隊升級了適配MOE模型的PD分離+大規模專家并行系統解決方案,進行了以下技術創新工作:
●適配MoE的PD分離部署,通過定制集合通信協議,消除集合通信流量沖突,解決推理過程中Prefill階段和Decode階段的相互干擾,使得P實例和D實例均達到系統最優,性能提升20%+;
●實現國產算力上MTP多token預測技術,降低MTP層計算耗時,整體性能提升30%+;
●專家負載均衡算法再升級,多DP負載均衡,實現卡間負載均衡差異小于8%,集群推理吞吐性能提升30%+;
●創新性實現異步雙發射技術,解決高并發下的高CPU負載問題,實現CPU和NPU的高效協同,降低服務請求調度耗時,系統性能提升10%。
基于上述解決方案的迭代與升級,通過在“飛星一號”平臺上對星火MoE模型、DeepSeekV3/R1進行實測,實現了推理性能比上一個版本提升1倍,已逼近國產算力上MoE集群推理的性能上限,也大大加速了訊飛星火大模型的訓練。
深度推理大模型訊飛星火X1也即將全新升級,作為業界唯一基于全國產算力訓練的深度推理大模型,X1在數學、代碼、邏輯推理、文本生成、語言理解、知識問答等通用能力上顯著提升,以小一個數量級的參數規模,實現整體效果對標OpenAI o1和DeepSeek R1,這也再次證明了基于國產算力訓練的全棧自主可控大模型具備登頂業界最高水平的實力和持續創新的潛力,期待大家的關注和體驗。