阿里今日凌晨開源了 Qwen3-Embedding 系列模型(Embedding 及 Reranker),專為文本表征、檢索與排序任務設計,基于 Qwen3 基礎模型進行訓練。
官方表示,在多項基準測試中,Qwen3-Embedding 系列在文本表征和排序任務中展現(xiàn)了卓越的性能。
其具備如下特點:
卓越的泛化性:Qwen3-Embedding 系列在多個下游任務評估中達到行業(yè)領先水平。其中,8B 參數(shù)規(guī)模的 Embedding 模型在 MTEB 多語言 Leaderboard 榜單中位列第一(截至 2025 年 6 月 6 日,得分 70.58),性能超越眾多商業(yè) API 服務。此外,該系列的排序模型在各類文本檢索場景中表現(xiàn)出色,顯著提升了搜索結果的相關性。
靈活的模型架構:Qwen3-Embedding 系列提供從 0.6B 到 8B 參數(shù)規(guī)模的 3 種模型配置,以滿足不同場景下的性能與效率需求。開發(fā)者可以靈活組合表征與排序模塊,實現(xiàn)功能擴展。
此外,模型支持以下定制化特性:
表征維度自定義:允許用戶根據(jù)實際需求調整表征維度,有效降低應用成本;
指令適配優(yōu)化:支持用戶自定義指令模板,以提升特定任務、語言或場景下的性能表現(xiàn)。
全面的多語言支持:Qwen3-Embedding 系列支持超過 100 種語言,涵蓋主流自然語言及多種編程語言。該系列模型具備強大的多語言、跨語言及代碼檢索能力,能夠有效應對多語言場景下的數(shù)據(jù)處理需求。
據(jù)介紹,Embedding 模型接收單段文本作為輸入,取模型最后一層「EOS」標記對應的隱藏狀態(tài)向量,作為輸入文本的語義表示;Reranker 模型則接收文本對(例如用戶查詢與候選文檔)作為輸入,利用單塔結構計算并輸出兩個文本的相關性得分。