專業評測榜單
自測榜單
6月18日,醫療大模型評測平臺MedBench發布新版評測榜單,潤達醫療與華為基于盤古大模型創新研發的潤醫醫療大模型在專業評測榜單和自測榜單中再次登頂,分別以96.4分和93.2分榮膺雙料冠軍。
尤為矚目的是,潤醫醫療大模型在自測榜單的醫學知識問答、醫學語言生成、醫學語言理解、醫療安全倫理四個維度分別取得91.2、85.1、123.1、106.6的優異成績,在參評團隊激烈的競爭中脫穎而出。在專業評測榜單中,模型同樣表現不俗,在醫學知識問答、復雜醫學推理、醫學語言理解和醫療安全倫理能力評測中分別獲得87.7、84.8、122.4、98.7的出色成績,榮登榜首,成為參評醫療大模型中的佼佼者。
潤醫醫療大模型在2025華為開發者大會備受矚目
6月20日,在2025華為開發者大會(HDC)上,華為常務董事、華為云CEO張平安在主題演講中特別提及潤醫醫療大模型,對其在醫療AI領域取得的突破性進展給予高度評價。張平安在演講中引用了MedBench最新評測結果,充分肯定了基于盤古大模型強大底座能力,通過醫療領域專業增訓打造的潤醫醫療大模型所展現的技術實力和創新成果。這一成就不僅體現了盤古大模型團隊在醫療AI垂域的專業能力,更彰顯了盤古大模型作為通用人工智能底座的強大實力,進一步確立了潤醫醫療大模型在行業內的領先地位和影響力。
MedBench作為中文醫療大模型權威評測平臺,由上海人工智能實驗室、上海市數字醫學創新中心聯合多家機構打造,已成為全球醫療AI領域重要參照標準之一。目前,平臺已累計評測全球百余醫療大模型,從醫學知識問答、醫學語言生成、復雜醫學推理、醫學語言理解、及醫療安全和倫理五大維度,提供客觀科學的模型能力評估。
潤醫醫療大模型在MedBench評測中斬獲佳績,充分展示了盤古大模型團隊在醫療AI領域深厚的技術積累和卓越的創新硬實力。這一碩果是團隊面向醫學領域大模型研發的重要里程碑,也是團隊在醫學垂直領域深耕、持續突破技術邊界的有力證明。
在華為盤古大模型L0層的基礎上,盤古大模型團隊使用了千億級高質量的中英文醫學文獻、醫學指南、書籍,及千萬量級醫療健康檔案和知識圖譜等數據進行訓練,強化了潤醫醫療大模型醫學知識儲備,顯著提升模型的醫學專業表達與理解能力。
為了使模型能夠精準捕捉醫療數據中的復雜模式與內在關系,顯著提升醫學知識問答、語言生成和理解、復雜醫學推理等高階能力,盤古大模型團隊提出了基于多智能體的醫學數據合成工作流自演進技術。工作流生成智能體首先對題目從醫學領域、難度、題型等維度深入分析,并從記憶模塊召回高相似度問題示例進行知識預熱,自動構建包含多模型采樣和信息整合的數據合成工作流。反思智能體通過評估采樣數據一致性、問題完成度、回復風格多樣性以及信息整合的合理性與完整性等,對數據合成工作流提出優化建議,推動工作流持續迭代演進,從而進一步提升醫學數據質量。同時,迭代優化后的工作流在記憶模塊中保存,不斷反哺工作流生成智能體,實現自演進學習。
數據合成工作流自演進技術為潤醫醫療大模型后訓練階段合成知識完備、表達準確、要素全面、邏輯清晰的高質量訓練數據,不僅讓模型學會了知識,更學會了“推理”、“診斷”、“表達”等高階認知技能,使潤醫醫療大模型成為懂醫學、會思考、會表達的行業領先的醫療垂域模型。
盤古大模型作為醫療AI的強大基礎底座,正以前沿的醫學數據訓練技術和深厚的垂域模型開發能力,推動醫療行業邁向智能化、精準化、個性化的嶄新時代。伴隨技術的日臻成熟和應用場景深度擴展,盤古醫療垂域模型將成為重塑醫療生態的關鍵引擎,不僅為醫院數字化轉型提供強勁動力,更將深刻變革傳統醫療服務質量、效率與可及性。盤古大模型及其在醫學垂域上技術突破將為構建智慧醫療體系,實現健康中國戰略目標奠定堅實的數字化基石,開啟AI賦能醫療健康事業的全新篇章。