色很久,久久精品国产99精品国产2021,亚洲一区二区三区中文字幕5566

C114
通信人家園
English
公眾號矩陣

投稿
舉報

量子大觀

通信人家園

C114通信網(wǎng)

光通信觀察

DVBCN中廣5G

2025/5/27 14:14

QwenLong-L1-32B 模型登場：阿里通義千問首個強化學(xué)習(xí)訓(xùn)練的長文本推理 AI 模型

IT之家故淵

阿里通義千問 Qwen 團隊昨日（5 月 26 日）發(fā)布 QwenLong-L1-32B 模型，是其首個通過強化學(xué)習(xí)訓(xùn)練的長文本情境推理模型（LRM）。

在七個長文本 DocQA 基準(zhǔn)測試中，表現(xiàn)超越 o3-mini 和 Qwen3-235B-A22B 等旗艦?zāi)Ｐ停c Claude-3.7-Sonnet-Thinking 相當(dāng)。

QwenLong-L1-32B 模型最大的亮點，在于上下文窗口最高支持 131072 個 tokens。該模型基于 QwenLong-L1 框架開發(fā)，采用了先進的 GRPO（Group Relative Policy Optimization）和 DAPO（Direct Alignment Policy Optimizatio）算法，結(jié)合基于規(guī)則和基于模型的混合獎勵函數(shù)，顯著提升了模型在長上下文推理中的準(zhǔn)確性和效率。

具體而言，團隊在監(jiān)督微調(diào)（SFT）階段建立一個穩(wěn)健的初始策略，隨后采用課程引導(dǎo)的分階段強化學(xué)習(xí)技術(shù)來穩(wěn)定策略演變，并結(jié)合難度感知的回顧采樣策略來激勵策略探索。

除了模型本身，阿里還發(fā)布了一套針對長文本推理問題的完整解決方案。該方案包含四個核心組件: 高性能的 QwenLong-L1-32B 模型、專門優(yōu)化的訓(xùn)練數(shù)據(jù)集、創(chuàng)新的強化學(xué)習(xí)訓(xùn)練方法，以及全面的性能評估體系。

免責(zé)聲明：本文僅代表作者個人觀點，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關(guān)內(nèi)容。

給作者點贊

0 VS 0

寫得不太好

相關(guān)鏈接

測試

阿里云曲振斌：AI產(chǎn)業(yè)呈現(xiàn)“極化效應(yīng)+普惠效應(yīng)”發(fā)展趨勢
C114通信網(wǎng) 岳明7-30
阿里小號服務(wù)終止運營！用戶需盡快換綁手機號
C114通信網(wǎng) 7-30
阿里通義千問更新 Qwen3-30B 非思考模型：AI 性能媲美 GPT-4o，推理、代碼、數(shù)學(xué)等能力全面躍升
IT之家故淵7-30
100 天贏得超萬家客戶青睞，英特爾至強 6 助力阿里云第九代企業(yè)級 ECS 實例滿足多元業(yè)務(wù)需求
廠商供稿 7-29

特別策劃

亚洲黄色在线-91爱看-日本免费一区二区三区四区-在线中文字幕网站-亚洲精品视频一区-欧美特黄一级