日韩综合网-日韩综合网站-日韩综合一区-日韩综合在线视频-色涩网站-色涩网站在线观看

Cloud&AI
`
2025/3/17 13:15
受 DeepSeek-R1 啟發(fā),小米大模型團隊登頂音頻推理 MMAU 榜
0
0

@小米技術(shù) 官微今日發(fā)文稱,小米大模型團隊在音頻推理領(lǐng)域取得突破性進展。受 DeepSeek-R1 啟發(fā),團隊率先將強化學(xué)習(xí)算法應(yīng)用于多模態(tài)音頻理解任務(wù),僅用一周時間便以 64.5% 的 SOTA 準(zhǔn)確率登頂國際權(quán)威的 MMAU 音頻理解評測榜首,現(xiàn)同步開源。

IT之家附官方全文如下:

強化學(xué)習(xí)展現(xiàn)“反直覺”優(yōu)勢 —— 小米大模型團隊登頂音頻推理 MMAU 榜

面對一段汽車行駛中的座艙錄音,AI 能否判斷出汽車是否存在潛在的故障?在交響樂演出現(xiàn)場,AI 能否推測出作曲家創(chuàng)造這首音樂時的心情?在早高峰地鐵站混亂的腳步聲潮中,AI 能否預(yù)判閘機口可能發(fā)生的沖撞風(fēng)險?在大模型時代,人們已經(jīng)不滿足于機器僅僅識別說話的內(nèi)容、聲音的種類,更期望機器具備復(fù)雜推理的能力。

MMAU(Massive Multi-Task Audio Understanding and Reasoning)評測集(https://arxiv.org/abs / 2410.19168)是這種音頻推理能力的量化標(biāo)尺,它通過一萬條涵蓋語音、環(huán)境聲和音樂的音頻樣本,結(jié)合人類專家標(biāo)注的問答對,測試模型在 27 種技能,如跨場景推理、專業(yè)知識等應(yīng)用上的表現(xiàn),期望模型達到接近人類專家的邏輯分析水平。

作為基準(zhǔn)上限,人類專家在 MMAU 上的準(zhǔn)確率為 82.23%。這是一個很難的評測集,目前 MMAU 官網(wǎng)榜單上表現(xiàn)最好的模型是來自 OpenAI 的 GPT-4o,準(zhǔn)確率為 57.3%。緊隨其后的是來自 Google DeepMind 的 Gemini 2.0 Flash,準(zhǔn)確率為 55.6%。

MMAU 任務(wù)示例圖片來自 MMAU 論文

來自阿里的 Qwen2-Audio-7B 模型在此評測集上的準(zhǔn)確率為 49.2%。由于它的開源特性,我們嘗試使用一個較小的數(shù)據(jù)集,清華大學(xué)發(fā)布的 AVQA 數(shù)據(jù)集(https://mn.cs.tsinghua.edu.cn/avqa/),對此模型做微調(diào)。AVQA 數(shù)據(jù)集僅包含 3.8 萬條訓(xùn)練樣本,通過全量有監(jiān)督微調(diào)(SFT),模型在 MMAU 上的準(zhǔn)確率提升到了 51.8%。這并不是一個特別顯著的提升。

DeepSeek-R1 的發(fā)布為我們在該項任務(wù)上的研究帶來了啟發(fā)。DeepSeek-R1 的 Group Relative Policy Optimization (GRPO) 方法,讓模型僅通過 "試錯-獎勵" 機制就能使自主進化,涌現(xiàn)出類似人類的反思、多步驗證等推理能力。在同一時間,卡內(nèi)基梅隆大學(xué)發(fā)布的論文預(yù)印本“All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning (https://arxiv.org/abs / 2503.01067) ”,通過精巧的實驗得出了一個有趣的論斷:當(dāng)任務(wù)存在明顯的生成-驗證差距(Generation-Verification Gap),即任務(wù)生成結(jié)果的難度遠大于驗證結(jié)果正確性的難度時,強化學(xué)習(xí)比起有監(jiān)督微調(diào)具有獨特優(yōu)勢,而 AQA 任務(wù)恰好是完美的生成-驗證差距顯著的任務(wù)。

打個比方來說,離線微調(diào)方法,如 SFT,有點像背題庫,你只能根據(jù)已有的題目和答案訓(xùn)練,但遇到新題可能不會做;而強化學(xué)習(xí)方法,如 GRPO,像老師在要求你多想幾個答案,然后老師告訴你哪一個答案好,讓你主動思考,激發(fā)出自身的能力,而不是被“填鴨式”教學(xué)。當(dāng)然,如果訓(xùn)練量足夠,比如有學(xué)生愿意花很多年的時間來死記硬背題庫,也許最終也能達到不錯的效果,但效率太低,浪費太多時間。而主動思考,更容易快速地達到舉一反三的效果。強化學(xué)習(xí)的實時反饋可能會幫助模型更快鎖定高質(zhì)量答案的分布區(qū)域,而離線方法需要遍歷整個可能性空間,效率要低得多。

基于上述洞察,我們嘗試將 DeepSeek-R1 的 GRPO 算法遷移到 Qwen2-Audio-7B 模型上。令人驚喜的是,在僅使用 AVQA 的 3.8 萬條訓(xùn)練樣本的情況下,強化學(xué)習(xí)微調(diào)后的模型在 MMAU 評測集上實現(xiàn)了 64.5% 的準(zhǔn)確率,這一成績比目前榜單上第一名的商業(yè)閉源模型 GPT-4o 有近 10 個百分點的優(yōu)勢。

有趣的是,當(dāng)我們在訓(xùn)練中強制要求模型輸出 推理過程時(類似傳統(tǒng)思維鏈方法),準(zhǔn)確率反而下降至 61.1%。這說明顯式的思維鏈結(jié)果輸出可能并不利于模型的訓(xùn)練。

我們的實驗揭示了幾個和傳統(tǒng)認知不同的結(jié)論:

關(guān)于微調(diào)方法:強化學(xué)習(xí)在 3.8 萬條數(shù)據(jù)集上的表現(xiàn)顯著超過監(jiān)督學(xué)習(xí)在 57 萬條數(shù)據(jù)集上的結(jié)果

關(guān)于參數(shù)規(guī)模:相比千億級模型,7B 參數(shù)的模型通過強化學(xué)習(xí)也可展現(xiàn)強推理能力

關(guān)于隱式推理:顯式思維鏈輸出反而成為性能瓶頸

盡管當(dāng)前準(zhǔn)確率已突破 64%,但距離人類專家 82% 的水平仍有差距。在我們當(dāng)前的實驗中,強化學(xué)習(xí)策略還是比較粗糙,訓(xùn)練過程對思維鏈的引導(dǎo)并不充分,我們會在后續(xù)做進一步探索。

此次實驗驗證了強化學(xué)習(xí)在音頻推理領(lǐng)域的獨特價值,也為后續(xù)研究打開了一扇新的大門。當(dāng)機器不僅能 "聽見" 聲音,還能 "聽懂" 聲音背后的因果邏輯時,真正的智能聽覺時代將會來臨。

我們把訓(xùn)練代碼、模型參數(shù)開源,并提供了技術(shù)報告,供學(xué)術(shù)界產(chǎn)業(yè)界參考交流。

訓(xùn)練代碼:https://github.com/xiaomi-research/r1-aqa

模型參數(shù):https://huggingface.co/mispeech/r1-aqa

技術(shù)報告:https://arxiv.org/abs/2503.11197

交互 Demo:http://120.48.108.147:7860/

免責(zé)聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。

給作者點贊
0 VS 0
寫得不太好

C114簡介     聯(lián)系我們     網(wǎng)站地圖

Copyright©1999-2025 c114 All Rights Reserved 滬ICP備12002291號-4

C114通信網(wǎng)版權(quán)所有 舉報電話:021-54451141 用戶注銷

主站蜘蛛池模板: 欧美精品国产制服第一页 | 美女18一级毛片免费看 | 免费一级欧美毛片 | 亚洲偷自拍另类图片二区 | 久久久久18 | 精品国产午夜久久久久九九 | 武松金莲肉体交战在线观看 | 综合 欧美 国产 视频二区 | 国产一区二区三区久久精品小说 | 亚洲不卡在线观看 | 国产高清区| 亚洲天堂视频在线观看免费 | 精品欧美一区二区三区精品久久 | 97久久草草超级碰碰碰 | 国产国语高清在线视频二区 | 国产人成精品 | 欧美日韩一区二区三区在线观看 | 亚洲天堂在线视频播放 | 视频三区精品中文字幕 | 欧美一级毛片免费看高清 | 国产精品1区 | 性视频福利在线看 | 国产精品亚洲专区在线播放 | 99er精品| 欧美aaaa在线观看视频免费 | 午夜在线亚洲男人午在线 | 亚洲欧洲一区二区三区在线 | 台湾一级特黄精品大片 | 一级毛片免费视频网站 | 国产精品毛片在线大全 | 欧美成人高清在线视频大全 | 日本精品高清一区二区2021 | 欧美在线观看成人高清视频 | 99爱免费观看视频在线 | 美女张开腿让人桶 | www.久草.com| 视频在线一区二区三区 | 国产人成精品综合欧美成人 | 99精品99| 可以免费观看欧美一级毛片 | 男人的天堂久久 |