日韩综合网-日韩综合网站-日韩综合一区-日韩综合在线视频-色涩网站-色涩网站在线观看

資訊
`
2025/5/22 09:59
DeepSeek啟示:中興通訊Curr-ReFT重塑小尺寸VLM模型能力
0
0

隨著大模型技術(shù)的飛速發(fā)展,多模態(tài)智能(即同時理解圖像和文字的AI)也迎來了突破。然而,性能表現(xiàn)優(yōu)異的視覺-語言模型(Vision-Language Models,VLMs),尤其是推理能力強勁的VLMs,普遍存在參數(shù)膨脹的問題,中興通訊受到DeepSeek R1-Zero的啟發(fā),推出了Curr-ReFT (Curriculum Reinforcement Fine-Tuning)訓練范式,為輕量化的VLMs訓練成為推理模型帶來了優(yōu)秀的訓練思路。

從啟示到創(chuàng)新:Curr-ReFT的誕生

DeepSeek R1-Zero通過“組相對策略優(yōu)化(Group Relative Policy Optimization, GRPO)”顯著提升了大語言模型在復雜推理任務中的表現(xiàn),展示了模型基于相對響應自我改進的潛力。中興通訊深度借鑒其理念,結(jié)合多模態(tài)任務需求,提出了面向小模型后訓練優(yōu)化的Curr-ReFT范式。

Curr-ReFT訓練范式從復現(xiàn)R1-Zero在多模態(tài)數(shù)學數(shù)據(jù)上的訓練起步,發(fā)現(xiàn)基礎(chǔ)能力提升有限。為解決這一瓶頸,中興通訊大膽創(chuàng)新,將原本依賴有監(jiān)督微調(diào)的訓練流程,全面轉(zhuǎn)向以強化學習為核心的方式,實現(xiàn)在計算機視覺(CV)、多模態(tài)任務中的全流程重塑,有效突破“Superficial Pattern Matching(表面模式匹配)”問題。

進一步針對輕量VLM在能力提升上遭遇“Brick Wall(瓶頸墻)”的難題,Curr-ReFT引入“課程式強化學習”策略,通過由易到難、循序漸進的三階段任務設(shè)計,幫助模型逐步激發(fā)推理潛能。同時,結(jié)合基于拒絕采樣的高質(zhì)量微調(diào)機制,實現(xiàn)對模型能力的持續(xù)優(yōu)化。

Curr-ReFT訓練范式:重塑輕量化VLM訓練的兩大核心技術(shù)

1. 課程強化學習——循序漸進,攻克難題Curr-ReFT借鑒了課堂教學中 “由易到難”的教學理念,將復雜任務拆分為三個階段,逐步提升模型的能力:

·第一階段:二元決策學習,視覺啟蒙模型從最簡單的任務入手,僅需回答“是”或“否”,快速建立基礎(chǔ)的視覺理解和簡單推理能力。例如,AI模型能夠判斷“這是蘋果嗎?”

·第二階段:多項選擇學習,認知躍遷

隨后模型進入選擇題階段,需要從多個選項中挑選正確答案,這一階段既考驗決策能力,也幫助模型學會分辨細節(jié)。通過鍛煉觀察力和細節(jié)分析,AI模型升級到會分析“水果里哪個最大?“

·第三階段:開放式回答,思維覺醒    最終,模型將面對開放性問題,需要根據(jù)圖像和文字信息自由作答。這時,模型的綜合推理能力得到充分鍛煉,最終能描述"這幅畫講的是什么故事"。

這一層層遞進的獎勵機制確保了模型能夠穩(wěn)步提升,逐步適應越來越復雜的任務,而不會因為過早接觸難題而出現(xiàn)訓練不穩(wěn)定的情況。

2. 拒絕樣本自我改進——精挑細選,持續(xù)自我優(yōu)化為了在提升復雜推理能力的同時不損失模型的基本語言技能,中興通訊還采用了基于拒絕采樣的自我改進機制。

·首先,我們利用先進的GPT-4-O作為獎勵模型,對模型生成的回答進行全方位評分(包括準確性、邏輯性、格式和流暢度),只有評分超過85分的回答才被挑選出來。

·接著,這些高質(zhì)量樣本組成一個精編數(shù)據(jù)集, 這些高分答案成為模型自我學習的參考,通過不斷修正錯誤、優(yōu)化表現(xiàn),模型能力持續(xù)提升。

這種方法確保模型在不斷進步的同時,始終保持扎實的基礎(chǔ)能力,避免了因過擬合某些簡單任務而影響整體表現(xiàn)。

Curr-ReFT實戰(zhàn)驗證:小模型,大能量

為了全面評估Curr-ReFT后訓練方法的效果,我們選取了Qwen2.5-VL-3B和Qwen2.5-VL-7B兩個基礎(chǔ)模型進行驗證。實驗結(jié)果顯示,Curr-ReFT在這兩個模型上的表現(xiàn)均顯著超越了原有基線,甚至在多個公開基準測試中超越了更大規(guī)模的26B(InternVL-26B)和32B(Llava-Next-32B)模型。

·推理能力躍升:Curr-ReFT-3B模型在AI2D數(shù)學推理測試中準確率達83%,相比原模型的74%提升顯著,甚至超越了多項任務中26B(InternVL-26B)和32B(Llava-Next-32B)的大模型表現(xiàn)。

·泛化能力增強:在Qwen2.5-VL-7B基礎(chǔ)上,Curr-ReFT進一步帶來性能躍遷。視覺檢測準確率從89.8%提升至92.2%,分類任務準確率從71.5%提升至73.1%。在關(guān)鍵基準測試中也取得顯著突破(MMVet從29.95%提升至36.78%,MathVista從58.6%提升至92.2%)。

這一系列數(shù)據(jù)充分證明,Curr-ReFT不僅適配小模型、低算力場景,更具備跨模型、跨任務的通用適應能力。

技術(shù)價值全面釋放:小模型,大場景

中興通訊自主研發(fā)的Curr-ReFT訓練范式,憑借其核心優(yōu)勢,為小型視覺語言模型在各類視覺文本任務中提供了堅實保障,具體亮點包括:

·領(lǐng)先技術(shù):中興通訊自主研發(fā)的Curr-ReFT訓練范式,使小型VLMs在各類視覺文本任務中展現(xiàn)出卓越的推理和泛化能力。

·高效易用:該技術(shù)采用通俗易懂的分階段訓練和拒絕采樣策略,即使在資源有限的環(huán)境下,也能實現(xiàn)穩(wěn)定、快速的模型優(yōu)化。

·廣泛應用場景:無論是智能終端、邊緣計算平臺還是智算中心,中興通訊的這項創(chuàng)新均能為客戶提供高效、低成本的VLMs解決方案。

攜手創(chuàng)新,智繪未來

中興通訊始終致力于前沿技術(shù)的持續(xù)探索與突破,將Curr-ReFT這一創(chuàng)新訓練范式深度集成至AIS訓推平臺,不僅大幅簡化了輕量化VLM的訓練流程,更顯著提升了小模型的推理與泛化能力。未來,中興通訊將攜手生態(tài)伙伴,共同拓展視覺語言智能的新邊界,賦能千行百業(yè)邁向更高效、更普惠的智能新時代。

開源下載鏈接:

代碼:https://github.com/ding523/Curr_REFT

數(shù)據(jù):https://huggingface.co/datasets/ZTE-AIM/Curr-ReFT-data

模型權(quán)重:https://huggingface.co/ZTE-AIM/3B-Curr-ReFT

模型權(quán)重:https://huggingface.co/ZTE-AIM/7B-Curr-ReFT

 

  免責聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。

給作者點贊
0 VS 0
寫得不太好

C114簡介     聯(lián)系我們     網(wǎng)站地圖

Copyright©1999-2025 c114 All Rights Reserved 滬ICP備12002291號-4

C114通信網(wǎng)版權(quán)所有 舉報電話:021-54451141 用戶注銷

主站蜘蛛池模板: 欧美黑人巨大xxxxxxxx | 91久久精一区二区三区大全 | 久久777国产线看是看精品 | 久久成人免费观看全部免费 | 色婷婷国产精品欧美毛片 | 91久久亚洲精品国产一区二区 | 国产精品香蕉一区二区三区 | 波多野结衣一区二区三区88 | 男女做性免费视频软件 | 免费亚洲视频 | 午夜免费片在线观看不卡 | 一区二区三区伦理 | 男女视频在线看 | 欧美一级淫片免费播放口 | 国产黄色片网站 | 亚洲天堂精品在线观看 | 中国胖女人一级毛片aaaaa | 日韩a级| 亚洲va中文字幕欧美不卡 | 久久国产网站 | 久久综合一区二区三区 | 中文字幕在线观看不卡视频 | 宅男66lu国产乱在线观看 | 国产a级午夜毛片 | 成人免费在线观看视频 | 一级毛片成人免费看a | 男女免费爽爽爽在线视频 | 亚洲精品一区二区三区中文字幕 | 国产精品怡红院在线观看 | 成年人在线免费观看视频网站 | 国产精选一区 | 台湾黄三级高清在线观看播放 | 欧美日韩ay在线观看 | 免费国产高清精品一区在线 | 九九久久久久久久爱 | 未满14周岁啪啪网站 | 欧美精品久久天天躁 | 一本久道久久综合中文字幕 | 中文字幕欧美一区 | 中文字幕成人免费视频 | 午夜在线影院 |