蘋果公司當地時間 6 月 9 日宣布對其人工智能模型進行了更新,這些模型為蘋果設備上的 Apple Intelligence 功能提供支持,涵蓋 iOS、macOS 等系統。然而,根據蘋果自身公布的數據,這些新模型的性能表現并不如一些競爭對手的舊模型,尤其是與 OpenAI 等科技巨頭的產品相比。
IT之家注意到,在博客文章中,蘋果指出,其最新的“蘋果設備端(Apple On-Device)”模型(運行于 iPhone等設備上且無需聯網)生成的文本質量,經過人類測試者評估后,被認為與谷歌和阿里巴巴的同規模模型“相當”,但并未優于它們。而蘋果的另一款更強大的模型“蘋果服務器(Apple Server)”(該模型旨在在公司的數據中心運行)在測試中則落后于 OpenAI 一年前推出的 GPT-4o。
在另一項測試中,蘋果的模型在圖像分析能力方面也未能脫穎而出。根據蘋果自己的數據,人類評估者更傾向于選擇 Meta 的 Llama 4 Scout 模型,而非蘋果的 Apple Server。這一結果令人意外,因為 Llama 4 Scout 在多項測試中表現不如谷歌、Anthropic 和 OpenAI 等人工智能實驗室的領先模型。
這些基準測試結果進一步印證了此前有關蘋果人工智能研究部門在激烈的 AI 競爭中落后于競爭對手的報道。近年來,蘋果的 AI 能力表現平平,備受期待的個性化 Siri 升級也無限期延遲。甚至有部分用戶對蘋果提起訴訟,指責該公司宣傳其產品具備尚未實現的 AI 功能。
此次更新的“Apple On-Device”模型擁有約 30 億參數,主要用于生成文本、總結和文本分析等功能。參數數量大致對應模型的解決問題能力,通常參數越多,模型表現越好。從周一開始,第三方開發者可以通過蘋果的 Foundation Models 框架接入該模型。
蘋果表示,“Apple On-Device”和“Apple Server”兩款模型在工具使用和效率方面較前代產品有所提升,且能夠理解大約 15 種語言。這主要得益于其擴展的訓練數據集,其中包含圖像、PDF 文件、文檔、手稿、圖表、表格和圖表等多種類型的數據。