科技媒體 marktechpost 今天(5 月 13 日)發(fā)布博文,報道稱蘋果公司聯(lián)合復旦大學,推出 StreamBridge 端側視頻大語言模型(Video-LLMs)框架,助力 AI 理解直播流視頻。
直播流視頻理解的挑戰(zhàn)與需求
傳統(tǒng)視頻大語言模型擅長處理靜態(tài)視頻,但無法適應機器人技術和自動駕駛等需要實時感知的場景,在這些場景下,要求模型能快速理解直播視頻流內(nèi)容,并做出反應。
現(xiàn)有的模型面臨兩大難題:一是多輪實時理解,即在處理最新視頻片段時需保留歷史視覺和對話上下文;二是主動響應,要求模型像人類一樣主動監(jiān)控視頻流,并在無明確指令的情況下及時輸出反饋。
StreamBridge 框架與創(chuàng)新技術
為解決上述問題,蘋果公司與復旦大學的研究者開發(fā)了 StreamBridge 框架。該框架通過內(nèi)存緩沖區(qū)和輪次衰減壓縮策略,支持長上下文交互。
該框架還引入了一個輕量化的獨立激活模型,無縫集成現(xiàn)有視頻大語言模型,實現(xiàn)主動響應功能。研究團隊還推出了 Stream-IT 數(shù)據(jù)集,包含約 60 萬個樣本,融合了視頻與文本序列,支持多樣化的指令格式,旨在提升流式視頻理解能力。
StreamBridge 在主流離線模型如 LLaVA-OV-7B、Qwen2-VL-7B 和 Oryx-1.5-7B 上進行了測試。結果顯示,Qwen2-VL 在 OVO-Bench 和 Streaming-Bench 上的平均分分別提升至 71.30 和 77.04,超越了 GPT-4o 和 Gemini 1.5 Pro 等專有模型。
Oryx-1.5 也取得了顯著進步,而 LLaVA-OV 性能略有下降。Stream-IT 數(shù)據(jù)集的微調進一步提升了所有模型的表現(xiàn),證明了 StreamBridge 在流式視頻理解領域的強大潛力。