国产亚洲欧美日韩在线观看不卡,久久香蕉精品成人,久久99国产这里有精品视

C114
通信人家園
English
公眾號矩陣

投稿
舉報

量子大觀

通信人家園

C114通信網

光通信觀察

DVBCN中廣5G

2025/4/29 11:41

通義千問正式推出Qwen3系列模型支持多語言和兩種思考模式

鳳凰網科技楊睿琪

4月29日，通義千問團隊宣布推出Qwen3系列大語言模型，包含多個參數規模的密集模型（Dense）與混合專家模型（MoE），并全面開源。

該系列模型引入“思考模式”與“非思考模式”兩種思考模式，前者支持復雜問題分步推理，后者提供快速響應。

在預訓練方面，Qwen3的數據集相比Qwen2.5有了顯著擴展。Qwen2.5是在18萬億個 token上進行預訓練的，而Qwen3使用的數據量幾乎是其兩倍，達到了約36萬億個 token，涵蓋了119種語言和方言。

此外，據官方介紹，通義千問開源了兩個MoE模型的權重：Qwen3-235B-A22B，一個擁有2350多億總參數和220多億激活參數的大模型，以及Qwen3-30B-A3B，一個擁有約300億總參數和30億激活參數的小型MoE模型。

六個Dense模型也已開源，包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B，均在Apache 2.0許可下開源。

據官方表示，旗艦模型Qwen3-235B-A22B在代碼、數學、通用能力等基準測試中，與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro等頂級模型相比，表現出極具競爭力的結果。此外，小型MoE模型Qwen3-30B-A3B的激活參數數量是QwQ-32B的10%，表現更勝一籌，甚至像Qwen3-4B這樣的小模型也能匹敵Qwen2.5-72B-Instruct的性能。

技術細節方面，Qwen3采用四階段后訓練流程，整合強化學習與指令微調，增強模型推理及多任務處理能力。

團隊表示，未來計劃從多個維度提升模型，包括優化模型架構和訓練方法，以實現幾個關鍵目標：擴展數據規模、增加模型大小、延長上下文長度、拓寬模態范圍，并利用環境反饋推進強化學習以進行長周期推理。

免責聲明：本文僅代表作者個人觀點，與C114通信網無關。其原創性以及文中陳述文字和內容未經本站證實，對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關內容。

給作者點贊

0 VS 0

寫得不太好

相關鏈接

測試整合

QwenLong-L1-32B 模型登場：阿里通義千問首個強化學習訓練的長文本推理 AI 模型
IT之家故淵5-27
通義千問 Qwen 免費上線 AI“深入研究”：十幾分鐘完成數小時任務
IT之家故淵5-14
日媒稱阿里通義千問成日本AI開發基礎能力超DeepSeek
CNMO 5-7
阿里通義千問推出視覺推理模型 QVQ-Max：可分析、推理圖片和視頻內容
IT之家遠洋3-28

特別策劃

日韩综合网-日韩综合网站-日韩综合一区-日韩综合在线视频-色涩网站-色涩网站在线观看