国产99视频精品免费视频7,香蕉免费高清完整,97超在线

量子大觀

通信人家園

C114通信網

光通信觀察

DVBCN中廣5G

2025/5/30 15:44

蘋果聯合推出AI交錯推理方法，Qwen2.5 模型響應速度快 80%、準確率提高 19.3%

IT之家故淵

科技媒體 marktechpost 昨日（5 月 29 日）發布博文，報道稱蘋果公司攜手杜克大學，提出交錯推理（Interleaved Reasoning）的全新強化學習（Reinforcement learning，RL）方法，進一步提升大語言模型的推理能力。

主流大語言模型在處理多步復雜問題時，常采用“先思考后回答”的長鏈式推理方式。然而，這種方法存在兩大痛點：一是響應時間過長，難以滿足實時交互需求；二是早期推理步驟出錯可能導致最終答案偏差。

研究人員指出，與人類在對話中隨時分享部分想法不同，模型往往等到推理全部完成才輸出結果，導致效率不高。

蘋果公司攜手杜克大學，研發了交錯推理技術，讓模型在推理過程中交替進行內部思考和輸出中間答案（sub-answer），從而提升速度與實用性。

交錯推理基于強化學習（RL）框架，采用特殊的訓練模板，包含和標簽，確保模型在達到關鍵推理節點時輸出中間結果。

研究團隊設計了基于規則的獎勵機制，包括格式、最終準確率和條件性中間準確率，確保模型注重整體正確性。

測試中，交錯推理在 Qwen2.5 模型（1.5B 和 7B 參數）上表現優異，響應速度提升超 80%，準確率提高高達 19.3%。

此外，該方法僅在問答（QA）和邏輯數據集上訓練，卻能在 MATH、GPQA、MMLU 等更具挑戰性的基準測試中展現強大泛化能力。

研究還嘗試了多種獎勵策略，如全或無、部分積分和時間折扣獎勵，其中條件性和時間折扣獎勵效果最佳，顯著優于傳統方法。

免責聲明：本文僅代表作者個人觀點，與C114通信網無關。其原創性以及文中陳述文字和內容未經本站證實，對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關內容。

給作者點贊

0 VS 0

寫得不太好

相關鏈接

蘋果測試

特別策劃

日韩综合网-日韩综合网站-日韩综合一区-日韩综合在线视频-色涩网站-色涩网站在线观看