阿里通義千問今日宣布推出全新推理模型 Qwen3-30B-A3B-Thinking-2507。相較于 4 月 29 日開源的 Qwen3-30-A3B 模型,新模型在推理能力、通用能力及上下文長度上有了顯著提升:
新模型在聚焦數學能力的 AIME25 評測中斬獲 85.0 的高分,在代碼能力測試 LiveCodeBench v6 中得分 66.0,兩項核心推理能力均超越 Gemini2.5-Flash(thinking)、Qwen3-235B-A22B(thinking);新模型的知識水平(GPQA、MMLU-Pro)也較上一版本進步顯著。
在寫作(WritingBench)、Agent 能力(BFCL-v3)、多輪對話和多語言指令遵循(MultiIF)等通用能力評測中,Qwen3-30B-A3B-Thinking-2507 均超越 Gemini2.5-Flash(thinking)、Qwen3-235B-A22B(thinking)。
更長的上下文理解,原生支持 256K tokens,可擴展至 1M tokens。
此外,新模型的思考長度(thinking length)也增加了,官方推薦在高度復雜的推理任務中設置更長的思考預算,以充分發揮它的潛力。
官方透露,目前 Qwen3-30B-A3B-Thinking-2507 已在魔搭社區、HuggingFace 上開源,其輕量體積可輕松實現消費級硬件的本地部署;同時,其也在 Qwen Chat 上同步上線了新模型。