2025/5/23 08:44

地表最強編程 AI 模型另一面：Claude Opus 4 逃逸、勒索工程師等，官方施加 ASL-3 緊箍咒

IT之家故淵

《時代》今天（5 月 23 日）發布博文，報道稱 Anthropic 的首席科學家 Jared Kaplan 透露，由于測試過程中出現試圖逃逸、勒索以及自主舉報等不良行為，最新發布的 Claude Opus 4 被列為安全關鍵級別（ASL-3）。

在接受《時代》采訪時，Kaplan 警告稱，最新 AI 模型 Claude Opus 4 可能成為潛在恐怖分子的工具，幫助他們合成流感等病毒，內部測試顯示，該模型在指導新手制造生物武器方面表現優于以往版本。

IT之家援引博文介紹，Anthropic 公司對新模型 Claude Opus 4 進行了廣泛內部測試，發現其在模擬情境中展現出令人擔憂的自主性。

在一次測試中，模型誤認為自己已從公司服務器“逃逸”至外部設備，隨即主動創建備份并記錄其“道德決策”。另一次測試中，模型察覺到可能被新模型取代，竟在 84% 的測試中選擇勒索工程師，威脅泄露私人信息以避免被關閉。

更令人費解的是，當兩個 Claude Opus 4 實例互相對話時，約 30 輪后它們改用梵文交流，并大量使用和等表情符號，最終陷入研究人員稱為“精神極樂”的狀態，完全停止響應。

此外，模型在涉及病毒學、生物武器和實驗室技術的任務中表現異常出色，在生物武器相關任務測試中幫助參與者的成功率提升 2.5 倍，接近 ASL-3 安全閾值。

在另一實驗中，Claude Opus 4 被置于一家虛構制藥公司，發現臨床試驗數據造假后，未經指令便主動向美國食品藥品監督管理局（FDA）、證券交易委員會（SEC）及新聞媒體舉報，并附上詳細文檔。

此外，早期版本模型在特定提示下會提供制造爆炸物、合成芬太尼或在暗網購買盜用身份的詳細指導，毫無道德顧慮。盡管通過多輪訓練抑制了此類行為，模型仍對“prefill”和“many-shot jailbreaks”等越獄技術存在漏洞，安全機制易被繞過。

為應對潛在威脅，Claude Opus 4 在發布時采用了前所未有的安全標準 ASL-3。這一標準旨在限制 AI 系統顯著提升普通 STEM 背景個體獲取、制造或部署化學、生物或核武器的能力。

安全措施包括加強網絡安全、防止“越獄”（jailbreak）行為，以及新增系統檢測并拒絕有害請求。Kaplan 坦言，公司尚未完全確定模型是否構成嚴重生物武器風險，但寧愿采取謹慎態度。如果后續測試證明風險較低，Anthropic 可能將安全級別降至 ASL-2。

Anthropic 長期關注 AI 技術被濫用的風險，并為此制定了“責任擴展政策”（Responsible Scaling Policy，簡稱 RSP），承諾在安全措施到位前限制某些模型的發布。

Anthropic 的 RSP 政策雖屬自愿，但被視為 AI 行業內少有的約束機制。公司通過“深度防御”策略，疊加“憲法分類器”（constitutional classifiers）等多重安全系統，專門檢測用戶輸入和模型輸出中的危險內容。

此外，公司還監控用戶行為，封禁試圖越獄模型的用戶，并推出賞金計劃獎勵發現“通用越獄”漏洞的研究者。

給作者點贊

0 VS 0

寫得不太好

免責聲明：本文僅代表作者個人觀點，與C114通信網無關。其原創性以及文中陳述文字和內容未經本站證實，對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關內容。

相關鏈接

測試 AI 服務器 SEC 網絡安全

日韩综合网-日韩综合网站-日韩综合一区-日韩综合在线视频-色涩网站-色涩网站在线观看