法國人工智能實驗室 Mistral 周二宣布進軍推理人工智能模型領域。6 月 10 日,Mistral 正式推出其首個推理模型系列 ——Magistral。該系列模型通過分步驟解決問題,旨在提升在數學、物理等學科領域的一致性和可靠性,與 OpenAI 的 o3 模型和谷歌的 Gemini 2.5 Pro 等其他推理模型類似。
Magistral 系列包含兩個版本:Magistral Small 和 Magistral Medium。Magistral Small 擁有 240 億參數,已在人工智能開發平臺 Hugging Face 上以 Apache 2.0 許可證開放下載。而 Magistral Medium 是一個能力更強的模型,目前處于預覽階段,僅在 Mistral 的 Le Chat 聊天平臺、公司 API 以及第三方合作伙伴云平臺上提供。
Mistral 在其博客文章中表示:“Magistral 適用于廣泛的企業級應用場景,包括結構化計算、程序化邏輯、決策樹和基于規則的系統。這些模型經過多步驟邏輯的微調,能夠提升可解釋性,并以用戶語言提供可追溯的思考過程。”
Mistral 成立于 2023 年,是一家前沿模型實驗室,致力于開發一系列人工智能驅動的服務,包括 Le Chat 和移動應用程序。該公司獲得了 General Catalyst 等風險投資機構的支持,目前已籌集超過 11 億歐元(IT之家注:現匯率約合 90.22 億元人民幣)的資金。
盡管 Mistral 擁有強大的資源,但在某些領域,例如開發推理模型方面,其落后于其他領先的人工智能實驗室。從 Mistral 自己的基準測試來看,Magistral 的競爭力似乎也不夠突出。在評估模型物理、數學和科學技能的 GPQA Diamond 和 AIME 測試中,Magistral Medium 的表現不如 Gemini 2.5 Pro 和 Anthropic 的 Claude Opus 4。此外,在流行的編程基準測試 LiveCodeBench 中,Magistral Medium 也未能超越 Gemini 2.5 Pro。
或許正因如此,Mistral 在其博客文章中著重強調了 Magistral 的其他優勢。Mistral 聲稱,Magistral 在 Le Chat 上的答題速度是競爭對手的 10 倍,并且支持多種語言,包括意大利語、阿拉伯語、俄語和簡體中文。
該公司在文章中寫道:“基于我們的旗艦模型,Magistral 專為研究、戰略規劃、運營優化和數據驅動決策而設計,無論是執行多因素風險評估和建模,還是在約束條件下計算最優交付窗口,都能勝任。”
Magistral 的發布是在 Mistral 推出“氛圍編程”客戶端 Mistral Code 之后不久。而在幾周前,Mistral 還發布了多個專注于編程的模型,并推出了 Le Chat Enterprise,這是一款面向企業的聊天服務,提供人工智能代理構建器等工具,并將 Mistral 的模型與 Gmail 和 SharePoint 等第三方服務集成。