国产日本三级,久久日本精品久久久久久,成人深夜网站

量子大觀

通信人家園

C114通信網

光通信觀察

DVBCN中廣5G

2025/5/27 14:26

微軟攜手清華、北大推出獎勵推理模型：根據 AI 任務復雜性動態分配計算資源

IT之家故淵

科技媒體 marktechpost 今天（5 月 27 日）發布博文，報道稱微軟研究院聯合清華大學、北京大學組建團隊，推出獎勵推理模型（Reward Reasoning Models，RRMs），通過顯式推理過程動態分配計算資源，提升復雜任務評估效果。

援引博文介紹，強化學習（Reinforcement Learning，RL）已成為大語言模型（LLM）后訓練的核心方法，通過人類反饋（RLHF）或可驗證獎勵（RLVR）提供監督信號。

然而，RLVR 在數學推理中雖有潛力，卻因依賴可驗證答案的訓練查詢而受限，難以應用于通用領域的大規模訓練。

此外，現有獎勵模型分為標量型和生成型兩大類，均無法有效擴展測試時的計算資源。當前方法對所有輸入統一分配計算資源，缺乏針對復雜查詢進行細致分析的能力，導致評估效果不佳。

為解決上述問題，微軟研究院、清華大學和北京大學的研究者聯手推出獎勵推理模型（RRMs）。RRMs 在給出最終獎勵前執行顯式推理過程，能夠根據任務復雜性自適應分配額外計算資源。

這種方法通過“思維鏈”（Chain-of-Thought）推理，針對獎勵不明顯的復雜查詢投入更多測試時計算資源。

RRMs 基于 Qwen2 模型，采用 Transformer-decoder 架構，將獎勵建模轉化為文本補全任務，生成推理過程后給出最終判斷。

研究團隊利用 RewardBench 庫進行系統分析，評估指標包括指令遵循性、幫助性、準確性、無害性和細節水平。RRMs 還支持多響應評估，通過 ELO 評分系統和淘汰賽機制，結合多數投票提升計算資源利用率。

測試結果顯示，RRMs 在 RewardBench 和 PandaLM Test 基準測試中表現突出。其中，RRM-32B 在推理類別中達到 98.6% 的準確率，與使用相同數據訓練的 DirectJudge 模型相比，RRMs 展現出顯著性能差距，證明其在復雜查詢中有效利用測試時計算資源。

在獎勵引導的最佳 N 推理（Best-of-N Inference）和后訓練反饋中，RRMs 超越所有基線模型，且進一步提升多數投票機制效率。

研究還表明，隨著模型規模從 7B、14B 到 32B 擴展，更長的推理時間始終帶來準確性提升。RRMs 通過并行和順序擴展方法高效利用計算資源，為傳統標量獎勵模型提供強大替代方案。

免責聲明：本文僅代表作者個人觀點，與C114通信網無關。其原創性以及文中陳述文字和內容未經本站證實，對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關內容。

給作者點贊

0 VS 0

寫得不太好

相關鏈接

測試微軟

特別策劃

日韩综合网-日韩综合网站-日韩综合一区-日韩综合在线视频-色涩网站-色涩网站在线观看