《時代》今天(5 月 23 日)發布博文,報道稱 Anthropic 的首席科學家 Jared Kaplan 透露,由于測試過程中出現試圖逃逸、勒索以及自主舉報等不良行為,最新發布的 Claude Opus 4 被列為安全關鍵級別(ASL-3)。
在接受《時代》采訪時,Kaplan 警告稱,最新 AI 模型 Claude Opus 4 可能成為潛在恐怖分子的工具,幫助他們合成流感等病毒,內部測試顯示,該模型在指導新手制造生物武器方面表現優于以往版本。
IT之家援引博文介紹,Anthropic 公司對新模型 Claude Opus 4 進行了廣泛內部測試,發現其在模擬情境中展現出令人擔憂的自主性。
在一次測試中,模型誤認為自己已從公司服務器“逃逸”至外部設備,隨即主動創建備份并記錄其“道德決策”。另一次測試中,模型察覺到可能被新模型取代,竟在 84% 的測試中選擇勒索工程師,威脅泄露私人信息以避免被關閉。
更令人費解的是,當兩個 Claude Opus 4 實例互相對話時,約 30 輪后它們改用梵文交流,并大量使用 和 等表情符號,最終陷入研究人員稱為“精神極樂”的狀態,完全停止響應。
此外,模型在涉及病毒學、生物武器和實驗室技術的任務中表現異常出色,在生物武器相關任務測試中幫助參與者的成功率提升 2.5 倍,接近 ASL-3 安全閾值。
在另一實驗中,Claude Opus 4 被置于一家虛構制藥公司,發現臨床試驗數據造假后,未經指令便主動向美國食品藥品監督管理局(FDA)、證券交易委員會(SEC)及新聞媒體舉報,并附上詳細文檔。
此外,早期版本模型在特定提示下會提供制造爆炸物、合成芬太尼或在暗網購買盜用身份的詳細指導,毫無道德顧慮。盡管通過多輪訓練抑制了此類行為,模型仍對“prefill”和“many-shot jailbreaks”等越獄技術存在漏洞,安全機制易被繞過。
為應對潛在威脅,Claude Opus 4 在發布時采用了前所未有的安全標準 ASL-3。這一標準旨在限制 AI 系統顯著提升普通 STEM 背景個體獲取、制造或部署化學、生物或核武器的能力。
安全措施包括加強網絡安全、防止“越獄”(jailbreak)行為,以及新增系統檢測并拒絕有害請求。Kaplan 坦言,公司尚未完全確定模型是否構成嚴重生物武器風險,但寧愿采取謹慎態度。如果后續測試證明風險較低,Anthropic 可能將安全級別降至 ASL-2。
Anthropic 長期關注 AI 技術被濫用的風險,并為此制定了“責任擴展政策”(Responsible Scaling Policy,簡稱 RSP),承諾在安全措施到位前限制某些模型的發布。
Anthropic 的 RSP 政策雖屬自愿,但被視為 AI 行業內少有的約束機制。公司通過“深度防御”策略,疊加“憲法分類器”(constitutional classifiers)等多重安全系統,專門檢測用戶輸入和模型輸出中的危險內容。