科技媒體 marktechpost 昨日(5 月 29 日)發布博文,報道稱蘋果公司攜手杜克大學,提出交錯推理(Interleaved Reasoning)的全新強化學習(Reinforcement learning,RL)方法,進一步提升大語言模型的推理能力。
主流大語言模型在處理多步復雜問題時,常采用“先思考后回答”的長鏈式推理方式。然而,這種方法存在兩大痛點:一是響應時間過長,難以滿足實時交互需求;二是早期推理步驟出錯可能導致最終答案偏差。
研究人員指出,與人類在對話中隨時分享部分想法不同,模型往往等到推理全部完成才輸出結果,導致效率不高。
蘋果公司攜手杜克大學,研發了交錯推理技術,讓模型在推理過程中交替進行內部思考和輸出中間答案(sub-answer),從而提升速度與實用性。
交錯推理基于強化學習(RL)框架,采用特殊的訓練模板,包含
研究團隊設計了基于規則的獎勵機制,包括格式、最終準確率和條件性中間準確率,確保模型注重整體正確性。
測試中,交錯推理在 Qwen2.5 模型(1.5B 和 7B 參數)上表現優異,響應速度提升超 80%,準確率提高高達 19.3%。
此外,該方法僅在問答(QA)和邏輯數據集上訓練,卻能在 MATH、GPQA、MMLU 等更具挑戰性的基準測試中展現強大泛化能力。