日韩综合网-日韩综合网站-日韩综合一区-日韩综合在线视频-色涩网站-色涩网站在线观看

C114通信網  |  通信人家園

人工智能
2025/4/24 14:52

英偉達推 DAM-3B 模型:突破局部描述難題,讓 AI 看懂圖像 / 視頻每一個角落

IT之家  故淵

科技媒體 marktechpost 昨日(4 月 23 日)發布博文,報道稱英偉達為應對圖像和視頻中特定區域的詳細描述難題,最新推出了 Describe Anything 3B(DAM-3B)AI 模型

視覺-語言模型(VLMs)在生成整體圖像描述時表現出色,但對特定區域的細致描述往往力不從心,尤其在視頻中需考慮時間動態,挑戰更大。

英偉達推出的 Describe Anything 3B(DAM-3B)直面這一難題,支持用戶通過點、邊界框、涂鴉或掩碼指定目標區域,生成精準且貼合上下文的描述文本。DAM-3B 和 DAM-3B-Video 分別適用于靜態圖像和動態視頻,模型已在 Hugging Face 平臺公開。

獨特架構與高效設計

DAM-3B 的核心創新在于“焦點提示”和“局部視覺骨干網絡”。

焦點提示技術融合了全圖信息與目標區域的高分辨率裁剪,確保細節不失真,同時保留整體背景。

局部視覺骨干網絡則通過嵌入圖像和掩碼輸入,運用門控交叉注意力機制,將全局與局部特征巧妙融合,再傳輸至大語言模型生成描述。

DAM-3B-Video 進一步擴展至視頻領域,通過逐幀編碼區域掩碼并整合時間信息,即便面對遮擋或運動也能生成準確描述。

數據與評估雙管齊下

為解決訓練數據匱乏問題,NVIDIA 開發了 DLC-SDP 半監督數據生成策略,利用分割數據集和未標注的網絡圖像,構建了包含 150 萬局部描述樣本的訓練語料庫。

通過自訓練方法優化描述質量,確保輸出文本的高精準度,團隊同時推出 DLC-Bench 評估基準,以屬性級正確性而非僵硬的參考文本對比衡量描述質量。

DAM-3B 在包括 LVIS、Flickr30k Entities 等七項基準測試中領先,平均準確率達 67.3%,超越 GPT-4o 和 VideoRefer 等模型。

DAM-3B 不僅填補了局部描述領域的技術空白,其上下文感知架構和高質量數據策略還為無障礙工具、機器人技術及視頻內容分析等領域開辟了新可能。

給作者點贊
0 VS 0
寫得不太好

免責聲明:本文僅代表作者個人觀點,與C114通信網無關。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯系我們 | 網站地圖 | 手機版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網 版權所有 舉報電話:021-54451141

      主站蜘蛛池模板: 国产aⅴ一区二区 | 精品欧美一区二区三区四区 | 夜色福利久久久久久777777 | 手机看片1024久久精品你懂的 | 国产欧美日韩精品第一区 | 国产精品午夜性视频 | 一级做a爱过程免费视频麻豆 | 日本高清色视频www 日本高清在线精品一区二区三区 | 精品国产品欧美日产在线 | 国产伦久视频免费观看视频 | 成人精品一区二区不卡视频 | 午夜桃色剧场 | 欧美 日韩 国产在线 | 女人张开腿让男人桶视频 | 亚洲人欧洲日韩 | 在线视频一区二区三区在线播放 | 免费国产一区二区在免费观看 | 91国在线啪精品一区 | 成人18免费入口 | 亚洲免费人成在线视频观看 | 亚洲综合综合在线 | 亚洲精品一区二区三区在 | 国产精品黄在线观看免费软件 | 精品久久久久久国产91 | 欧美视频一区二区三区 | 色三级大全高清视频在线观看 | 孕妇孕妇aaaaa级毛片视频 | 手机看片日韩日韩国产在线看 | 日韩精品欧美国产精品亚 | 精品一久久香蕉国产二月 | 亚洲欧美视频二区 | 欧美丝袜xxxxx在线播放 | 欧美日韩在线播一区二区三区 | 久草视频免费看 | 精品一区二区三区在线观看 | 波多野结衣一区二区三区高清在线 | 久久国产一级毛片一区二区 | 久久国产一片免费观看 | 男人添女人下面免费毛片 | 亚洲国产精品一区二区第四页 | 日韩欧美一区二区在线 |