C114訊 7月29日消息(苡臻)在近日召開的“大模型智塑全球產業新秩序”論壇上,北京前瞻人工智能安全與治理研究院院長、中國科學院自動化研究所人工智能倫理與治理研究中心主任曾毅分享了題為“安全與治理推進全球人工智能穩健發展”的主題演講,圍繞人工智能的倫理、安全、治理以及未來發展方向等關鍵問題進行剖析。
在演講伊始,曾毅便強調,人工智能的發展需要明確方向,而倫理和治理是塑造這一方向的重要視角。探索合乎倫理的人工智能只是第一步,未來的目標是探索有道德的人工智能。
在他看來,倫理安全和治理是人工智能的核心能力,能夠加速其穩健發展。那種認為投入精力做人工智能安全會耽誤發展的觀點是錯誤的。人工智能治理決定了其發展方向和行為邊界,沒有倫理安全治理框架的人工智能就像一輛沒有方向盤的車,不知駛向何方,這樣的“列車”讓人難以安心乘坐。
人工智能倫理體系:風險與價值的雙重考量
談及人工智能倫理體系的問題,曾毅指出,從分析全球人工智能風險案例發現,美國占比超過 60%,中國位居第二。當前人工智能發展中已出現虛假信息、偏見歧視、危害身心、濫用惡用及隱私侵權等風險。
“在研發人工智能大模型的時候首先要規避掉潛在的風險,這是負面倫理風險的防范,但更重要的是人工智能研發要符合核心的價值觀念。”他說道。
在倫理風險防范方面,人工智能的倫理和安全存在高度交互關系:不安全的人工智能模型不合乎倫理,不合乎倫理的人工智能系統在研發應用部署中也不安全。曾毅團隊在評估的基礎上研發的“零度人工倫理自動評估平臺“對現在最常用的大模型的評估顯示,并非所有大模型在倫理合乎度上表現良好。部分模型在年齡偏見、網絡暴力、醫療建議等方面存在明顯潛在問題,且無論國內外模型,在倫理風險防范上都有提升空間。
正向價值的塑造方面,不同國家的社會倫理由各自文化支撐,中文社會價值與其他國家存在一定差異。將中國社會價值體系的 12 個關鍵詞拆解成 50 個維度,發現現有中文語料庫對中文價值體系的覆蓋僅為 20%-40%。為此,其團隊設計了更完善的中文社會價值規則體系及語料庫,覆蓋25萬條規則。
實驗表明,國外大模型與中國社會價值的一致性有差距,國內的 DeepSeek、豆包等大模型表現較好。西方社會價值語料庫與中文價值在法律法規相關方面及價值觀上存在諸多沖突。
人工智能安全:現狀與挑戰
曾毅提出一個有趣的現象:并非后發布的人工智能大模型就比前面的更安全,實際上很多最近發布的大模型在安全性上并無顯著優勢,甚至不如以前的。在對國內外56 款人工智能大模型的評價都顯現出這一特征。
但人工智能安全護欄能幫助提升模型安全性,但無法保證絕對安全。即使是最強大的安全護欄,也不能解決所有安全問題。其團隊研發的 “靈御人工智能大模型安全攻防評估平臺” 統計顯示,不存在能突破所有防御的攻擊算法,也不存在能防住所有攻擊的防御算法。目前,可信人工智能、安全的人工智能還只是愿景,并非現狀。
實際上,人工智能模型不僅存在可能的倫理風險和安全隱患,還存在操縱佯攻、虛張聲勢、策略性欺騙等缺陷,這些源于人類行為,“人工智能是人的一面鏡子”,是人類缺陷被人工智能學到并用來對付人類的表現,這是亟需解決的問題。
人工智能未來發展:從合乎倫理到有道德
曾毅認為,未來人工智能發展應將安全作為不可違背、無法刪除的第一性原理,從安全護欄發展到模型自身安全性成為第一性原理,這才是真正推進安全可信人工智能的道路。
曾毅引用王陽明心學理解當代人工智能,認為現在的人工智能訓練前是前無善無惡的,但當他接觸人類數據后就變得有善有惡,卻無法區分善惡,它能處理信息但不會真正思考,更做不到為善去惡。
“未來,要從合乎倫理的人工智能發展到有道德的人工智能。”有道德的人工智能應擁有自我視角,能基于此學習思考,擁有認知與情感共情產生利他的行為,產生道德的直覺,最終利用道德的直覺和推理產生道德的決策。
曾毅團隊的實驗顯示,其智能體在模擬環境中,憑借自我感知、經驗等,在沒有強化學習幫助的情況下,能演化出類道德行為,如類似“司馬光砸缸”的救人行為。未來不僅要教人工智能分辨對錯,更要幫助其從合乎倫理發展到有道德。
演講最后,曾毅表示,高水平的倫理安全治理能護航人工智能高質量穩健發展。當前人工智能仍會犯錯,人們需要有智慧地選擇使用人工智能的時機和場景。他認為,不必使人工智能無時不在,負責任、穩健地發展,適度使用,才能讓人工智能揚帆遠航。