科技媒體 9to5Mac 昨日(5 月 13 日)發布博文,報道稱蘋果機器學習團隊攜手南京大學和香港科技大學,推出名為 Matrix3D 的 3D AI 模型,專注于從少數 2D 照片中重建真實世界的物體和場景。
用戶只需提供幾張圖像,模型就能自動生成高質量的 3D 輸出。這不僅簡化了操作,還為應用領域打開了新機遇,進一步推動了 AI 領域的協作。
攝影測量技術利用照片進行測量,從而創建 3D 模型或地圖。目前的流程依賴姿態估計和深度預測等多個獨立模型來處理具體步驟,而這種分段方法容易導致低效和錯誤。
Matrix3D 則革新了這一體系。它一次性整合圖像、相機參數(如角度和焦距)以及深度數據等所有過程,通過統一架構處理這些元素,減少了中間環節,讓重建過程更流暢、更可靠。研究者指出,這種整合設計顯著降低了人為錯誤的風險,并提高了整體性能。
在訓練策略方面,研究者采用了掩碼學習方法,類似于早期 Transformer 基礎 AI 系統。這種技術借鑒了 ChatGPT 早期版本的訓練理念,在訓練過程中隨機隱藏部分輸入數據,迫使模型學會“填充空白”。這強化了模型的適應性。即使數據集較小或不完整,Matrix3D 也能有效學習關鍵特征。
測試結果證明了 Matrix3D 的強大表現。用戶只需三張輸入圖像,該模型就能生成詳細的 3D 重建,包括物體和整個環境,為沉浸式技術帶來了實際應用潛力。IT之家附上演示視頻如下:
例如,在 Apple Vision Pro 等頭顯設備中,Matrix3D 可以創建逼真的虛擬場景,提升用戶體驗。研究者表示,這種能力將加速元宇宙和增強現實的發展。