五月將至,中美科技巨頭或將迎來新一輪巔峰對決。
先是在4月中旬,OpenAI一口氣發布了GPT-4.1 o3、o4 mini系列模型;谷歌則拿出了Gemini 2.5 Flash Preview,一個混合推理模型;與谷歌同一天,豆包在杭州巡展中正式發布了1.5·深度思考模型,在多模態上展現出了更強的實力。鳳凰網科技從行業人士處了解到,阿里的下一代大模型Qwen3也將于本月內發布。
混戰之下,那股“神秘的東方力量”似乎也在悄悄準備著新的發布。
敏感的神經之下,一點蛛絲馬跡都會被放大。昨日,全球最大AI開源社區Hugging Face首席執行官Clément Delangue在社交平臺發布了一條耐人尋味的動態。這條動態僅由三個眼睛的表情符號構成,并附上了DeepSeek團隊在Hugging Face平臺的官方資源庫入口。
這組充滿懸念的組合引發科技圈熱議,業內普遍推測DeepSeek R2模型已進入發布倒計時。
DeepSeek R2發布已進入倒計時?
近半個月來,有關“DeepSeek全新模型R2即將問世”的傳聞持續發酵。除HuggingFace首席執行官Clément Delangue發布動態外,玩家@deedydas也在社交平臺貼出了所謂DeepSeek-R2大模型的詳細技術參數。
1、擁有 1.2萬億參數,活躍參數為 780億,采用混合 MoE架構
2、成本比 GPT-4o便宜 97.3%(輸入每百萬次 0.07美元,輸出每百萬次 0.27美元)
3、使用了 5.2PB的訓練數據,在 C-Eval2.0測試中取得了 89.7%的得分
4、視覺能力更強,在 COCO測試集上達到了 92.4%
鳳凰網科技就以上消息向DeepSeek方面發去詢問,對方表示不予回應。有接近DeepSeek的知情人士對鳳凰網科技表示,目前網上盛傳的消息,真實性含量非常低。
但結合DeepSeek的產品迭代規律與產業鏈動態,其五月有望發布新品的傳聞卻并非空穴來風。
據《中國企業家》報道,過去DeepSeek創始人梁文鋒率領的AI團隊始終保持著與國際巨頭同頻的產品迭代節奏——2024年9月推出V2.5版本,12月發布V3基礎架構,次年3月即升級至V3-0324版本,形成每季度重大更新的開發范式。這種緊扣行業脈搏的研發策略,使得業界普遍預測其下一代主力模型R2或將延續“五一檔”發布傳統。
路透社此前披露的研發動向印證了這種猜測:DeepSeek正在加快R1模型的后續產品R2的研發和發布進程,原計劃在5月初發布,但公司現在希望能夠盡早推出 。
更值得關注的是技術演進方向,此前也有業內人士推測,DeepSeek-R2模型預計將在代碼生成和除英語外的更多語種推理能力方面有不小的提升。
這一預期并非無中生有——今年三月發布的V3-0324版本已展現驚人實力,根據Artificial Analysis Intelligence Index最新評測,該模型已經成為得分最高的非推理模型。在基準測試中力壓Google Gemini 2.0 Pro、Anthropic Claude 3.7Sonnet及Meta Llama 3.3 70B等頂尖模型。
這種技術積淀與迭代速度,使得R2尚未發布便已承載全球AI界的較高期待。無論前述傳聞最終是否成真,可以預見的是,當這款新模型正式亮相時,或將改寫新一輪全球算法與算力生態格局。
該梁文鋒出場了
在國產AI大模型賽道暗流涌動的當下,DeepSeek創始人梁文鋒的每一步都走得很穩。他曾說過:“中國也要逐步成為創新貢獻者,而不是一直搭便車。”
盡管近期DeepSeek在公眾視野中保持低調,但梁文鋒一直在向著DeepSeek的核心使命努力,那就是探索通用人工智能的本質。
多位接觸過DeepSeek團隊的人士都認為,梁文鋒的志向不在服務好用戶和做好產品,而是直指終極AGI。這讓他在早年間試探性接觸資方時,優先排除了有退出顧慮的絕大多數機構,甚至主要依托于自有資金,“梁文鋒也有這個資本實力”。
一位在早期就接觸過DeepSeek的機構對鳳凰網科技表示,梁文峰很早就發現Chatbot產品的可替代性很強,“現在的產品都沒有黏性,所以只要技術強隨時可以把用戶搶過來”。DeepSeek R1的發布也的確證實了這一觀點。
DeepSeek的最后一次模型更新發布是在今年3月,發布了V3-0324版本,也被看作是R2的基礎模型,已針對性能、用戶體驗和實用性進行了優化,通過6850億參數的MoE架構升級,代碼能力顯著增強,又一次深度影響了全球市場。
因而5月或將發布的旗艦模型R2,也被視為影響全球AI格局的關鍵落子。
特別需要說明的是,這一技術攻堅的窗口期,恰逢國產芯片產業劇變。美國對英偉達H20芯片的出口禁令,直接斬斷中國AI企業獲取高端GPU的主渠道,倒逼華為昇騰910C、寒武紀MLUarch04等國產芯片加速填補市場空白。
清程極智的CEO湯雄超曾經告訴鳳凰網科技,作為當前開源市場所能用到的最好模型,DeepSeek和最難獲取的芯片一度是深度捆綁的。如此前DeepSeek開源周所呈現的,其推出了一系列針對英偉達H卡的算力優化方案。
這讓梁文鋒在早年間曾表達:“我們真正的挑戰從來不是資金,而是高端芯片的出口禁令。”
但禁令也從未真正束縛其技術野心,“英偉達的GPU沒有什么神秘之處,但要趕上他們,就必須重建團隊、付出時間和成本,追趕下一代技術——這才是真正的護城河。”梁文鋒表示。
多位國產算力產業從業人士也對鳳凰網科技表示,當前國產生態已在加速迭代中。
本次DeepSeek新一代旗艦模型發布,也或將存在另一變量,即在推理側深度適配國產算力。
當前,千行百業都展現出了旺盛的大模型部署需求,但正如李彥宏所言,DeepSeek最大的問題就是又慢又不穩定,如何才能獲取到穩定的、便宜的滿血版DeepSeek,這不僅僅是行業需要解決的問題,更需要DeepSeek官方加入其中。
值得一提的是,鳳凰網科技從行業人士處了解到,DeepSeek已經正在和一些國產芯片合作,“國產芯片中有些頭部的,實際上已經在和DeepSeek合作了”。