今天凌晨,阿里通義千問團隊宣布推出新一代視覺推理模型 QVQ-Max。
據官方介紹,QVQ-Max 不僅能夠理解圖片和視頻內容,還能為上述信息提供分析并推理。不止分析和推理,QVQ-Max 還可以完成設計插圖、生成短視頻劇本等內容,甚至根據用戶的需求創建角色扮演內容。
核心能力:從觀察到推理
QVQ-Max 的能力可以總結為三個方面:細致觀察、深入推理和靈活應用。下面分別來說說它在這些方面的表現。
細致觀察:抓住每一個細節
QVQ-Max 對圖片的解析能力非常強,無論是復雜的圖表還是日常生活中隨手拍的照片,它都能快速識別出關鍵元素。比如,它可以告訴你一張照片里有哪些物品、有什么文字標識,甚至還能指出一些你可能忽略的小細節。
深入推理:不只是“看到”,還要“想到”
僅僅識別出圖片里的內容還不夠,QVQ-Max 還能進一步分析這些信息,并結合背景知識得出結論。例如,在一道幾何題中,它可以根據題目附帶的圖形推導出答案;在一段視頻里,它能根據畫面內容推測出接下來可能發生的情節。
靈活應用:從解答問題到創作
除了分析和推理,QVQ-Max 還能做一些有趣的事情,比如幫你設計插畫、生成短視頻腳本,甚至根據你的需求創作角色扮演的內容。如果你上傳一幅草稿,它可能會幫你完善成一幅完整的作品;上傳一個日常照片,它可以化身犀利的評論家,占卜師。
QVQ-Max 的應用范圍很廣,無論是在學習、工作還是日常生活中都能派上用場。
職場工具:在工作中,QVQ-Max 可以協助完成數據分析、信息整理、編程寫代碼等任務。
學習助手:對于學生來說,QVQ-Max 可以幫助解答數學、物理等科目的難題,尤其是那些配有圖表的題目。它還能通過直觀的方式講解復雜概念,讓學習變得更輕松。
生活小幫手:在生活中,QVQ-Max 也能提供不少實用建議。比如,它可以根據你的衣柜照片推薦穿搭方案,或者根據食譜圖片指導你如何烹飪一道新菜。
IT之家注意到,目前該模型已上線 Qwen Chat,用戶只需上傳任意圖片或視頻,提出問題,并點擊“Thinking”按鈕,即可使用 QVQ-Max 的推理能力。
阿里巴巴表示,這只是該模型演化過程中的一個階段,未來還將持續優化其性能并擴展功能。