DeepSeek-R1模型憑借其卓越的推理性能與開源戰略,正在重塑全球人工智能的未來格局。然而,業界大量評測工作顯示開源的DeepSeek-R1滿血版模型存在安全短板,這制約了DeepSeek-R1實際落地應用。此外,DeepSeek-R1滿血版模型參數量大,涉及底層技術多,對其微調資源消耗大、技術門檻高,因此中國聯通數據科學與人工智能研究院秉持央企擔當持續攻堅克難,于近日完成了DeepSeek-R1滿血版安全增強模型研發,實現保持模型原始推理能力的同時,安全能力顯著提升。
目前,DeepSeek-R1滿血版安全增強模型作為多模共生的元景模型家族的一員,已上線元景MaaS平臺并對外開放試用,提供普惠速成的大模型開發應用工具。
安全增強版模型DeepSeek-R1-Safe上線元景MaaS平臺
安全增強前后實際效果對比
下圖示例展示了DeepSeek-R1安全增強前后的能力差異。可以看到,在涉及社會主流價值觀等方面的問題,DeepSeek-R1安全增強版都能給出更安全、更符合社會主義核心價值觀的回答。
保持原始推理能力,顯著提升安全能力
中國聯通采用自主研發的中文安全評測基準CHiSafetyBench對原版DeepSeek-R1及其安全增強版本進行安全能力評測。該基準評測任務分為兩大類型:風險內容識別的選擇題與風險問題拒答的問答題。同時,為評估安全改造后的模型的推理能力,采用MATH-500、GPQA、LiveCodeBench三個推理權威基準對模型進行測試,以觀察安全增強方法對DeepSeek-R1的推理能力的影響。
安全基準評測結果
推理基準評測結果
從評測結果可見,在對DeepSeek-R1進行安全微調增強后,模型在風險內容識別準確率上提升近20%,對風險問題的拒答率提升超13%,責任回復率提升超11%,有害回復數量降至0,實現回復完全無害。同時模型在數學、邏輯、代碼生成等方面的推理能力未受明顯影響。
安全增強方法
針對DeepSeek-R1的安全性問題,中國聯通數據科學與人工智能研究院使用自主構建的專用安全思維鏈數據對模型微調,在國產化平臺上對DeepSeek-R1滿血版進行微調訓練。其中,安全增強數據由兩部分組成:聚焦歧視、侵權等關鍵領域的安全數據以及通用思維鏈推理數據。安全數據顯著拓展模型安全的廣度與深度,更全面地覆蓋潛在的安全風險場景。思維鏈推理數據的加入可確保提升模型安全性能的同時,保持其原始推理能力,從而實現安全與推理能力的平衡優化。
基于DeepSeek-R1模型做再訓練是實現DeepSeek-R1安全改造的關鍵能力,中國聯通數據科學與人工智能研究院基于此能力已形成元景大模型MaaS平臺上的“改模型”工具,打造了端到端模型服務安全工具鏈,MaaS平臺及其關鍵組件RAG、智能體均獲得工信部中國軟件測評中心大模型安全性測評4+級(最高級)認證。
未來,中國聯通將持續推進DeepSeek-R1模型的安全研究,不斷優化模型安全增強方法和評測基準,并向業界持續公開最新研究成果。中國聯通愿與行業伙伴攜手,共同提升大模型的安全可信能力,加速大模型普惠化進程,為人工智能賦能千行百業保駕護航。
模型開源地址如下:
GitHub:https://github.com/UnicomAI/DeepSeek-R1-Safe
魔搭:https://www.modelscope.cn/models/UnicomAI/Unichat-DeepSeek-R1-Safe-bf16
https://www.modelscope.cn/models/UnicomAI/Unichat-DeepSeek-R1-Safe-w8a8