C114訊 6月13日消息(岳明)在Generative AI向Agentic AI的演進浪潮中,要想繼續留在“牌桌”上,產品技術創新和產業生態合作同樣重要。
作為在Generative AI時代的贏家之一,AMD顯然想贏得更大的牌局,但這并非易事,AMD該如何破局?太平洋時間2025年6月12日上午9:30,AMD董事會主席及首席執行官蘇姿豐(Lisa Su)博士在Advancing AI大會上給出了自己的答案:領先技術+開放生態+全棧方案!
在領先技術層面,AMD瞄準4000億美元的AI硬件市場,已經構建起了包括CPU、GPU、DPU、FPGA等在內的完整技術堆棧,而且在快速價值迭代;在開放生態層面,AMD正在加大對ROCm軟件生態系統的建設投入,最新版本ROCm 7已經面向生成式AI和高性能計算工作負載日益增長的需求做足準備;在全棧方案層面,AMD正在強化云邊端協同的集成 AI 平臺愿景,將推出基于行業標準構建的、開放且可擴展的機架級AI基礎設施—“Helios”AI機柜。
技術領先:Instinct MI350系列GPU實現35倍推理性能提升
在上午的發布環節,采用臺積電的3nm工藝,集成1850億晶體管的Instinct MI350系列GPU無疑是最大亮點。
作為AMD歷史上最為成功的產品之一,Instinct MI350系列GPU采用了CDNA 4架構,在性能、內存容量、帶寬,GPU執行單元數量、吞吐性能等方面實現了全面進化,并且通過2.5D和3D先進封裝技術實現了晶體管的更高密度集成以及更好的能效表現。
性能方能,Instinct MI350系列GPU支持多種浮點精度數據格式,包括FP8、FP6、FP4、FP16、BF16以及FP64等。相比前代產品,其AI算力得到顯著增強,FP16性能達到18.5 PFlops,FP8為37 PFlops,FP6/FP4高達74 PFlops。MI350系列GPU的模型參數處理能力從7140億激增至4.2萬億,提升近6倍,能夠有效滿足大語言模型和混合專家模型的訓練與推理需求。
內存和帶寬容量方面,這是AMD GPU產品區別于友商的強項。在Instinct MI350產品上,這種優勢得到了進一步加強,其內存容量達到了288GB HBM3E,最大帶寬能力為 8TB/s,無論是訓練還是推理,都能獲得更好的吞吐量。
對于如此高算力、高密度的AI硬件產品而言,散熱和功耗是必須要面對的。Instinct MI350系列GPU可以支持風冷和直接液冷靈活配置,風冷機架中最多可部署64個GPU,液冷機架中最多可部署128個GPU,提供高達2.6 exaFLOPS 的 FP4/FP6 性能。
當然,對于最終用戶而言,TCO是個更核心的話題。蘇姿豐博士介紹,相比英偉達B200,AMD Instinct MI300X系列GPU每美元可處理的Token數量提升高達40%,相當于在運行大語言模型(LLM)時,單位成本下的計算效率提升40%。
而且在本次峰會上,AMD還劇透了下一代Instinct MI400系列GPU的特性,它將擁有高達40PF和20PF的FP4/FP8算力,并打在432GB HBM4內存,帶寬將提升至19.6 TB/s,每個GPU的橫向擴展帶寬將達到300 GB/s,進一步為AI計算提速。
不僅在算力層面,在網絡連接層面,AMD推出了業界首款支持超以太網聯盟(UEC)特性的AI智能網卡——AMD Pensando Pollara 400,該AI智能網卡專為加速后端網絡應用而設計,實現了400千兆比特每秒(Gbps)的以太網傳輸速率。
開放生態:開發者至上,全新ROCm 7+開發者云
開發者,開發者,開發者。
從會議現場某位演講嘉賓的開場白中,我們就能深刻體會到軟件和生態的重要性,而這也是AMD最大競爭對手英偉達的護城河。
對此,蘇姿豐博士給出的答案是ROCm 7和開發者云。AMD對ROCm的愿景是通過一個開放、可擴展且專注于開發者的平臺,為所有人解鎖創新潛能。據蘇姿豐博士介紹,過去一年中,ROCm迅速成熟,并深化了與主流開源社區的集成。如今,ROCm驅動著全球最大型的一些AI平臺,支持Llama、DeepSeek等主流模型,特別是在最新的ROCm 7版本中實現了超過 3.5 倍的推理性能提升。
隨著AI應用從研究轉向企業世紀部署,ROCm也在同步演進。ROCm企業級AI將一套全棧式MLOps 平臺推向臺前,憑借支持超過 180萬個Hugging Face模型的開箱即用體驗,以及行業基準測試的引入,ROCm提供用于微調、合規、部署和集成的開箱即用工具,以實現安全、可擴展的AI!癛OCm 不僅是在追趕——它正在引領開放的AI革命”,蘇姿豐博士在演講中強調。
與ROCm 7相伴而來的,還有極具靈活性和可擴展性的AMD開發者云服務。AMD開發者云服務具備零設置環境、支持預安裝的Docker容器和出色的靈活性、在Day-0生態的Instinct MI350系列GPU系統支持能力、擁有多元化的可擴展計算選項、為開發者提供免費額度等多重亮點。也就是說,無論是何種應用場景,AMD開發者云都提供了即時開始的工具和靈活性,讓開發者在不受限制的環境中釋放生產力。
全棧方案:“Helios”AI機架實現“集大成”
隨著大模型訓練和推理對算力需求的爆炸式增長,傳統計算架構已難以支撐AI技術的代際躍遷。
超節點,作為AIDC算力Scale Up的當前最優解,通過內部高速總線互連,能夠有效支撐并行計算任務,加速GPU之間的參數交換和數據同步,縮短大模型的訓練周期,在性能、成本、組網、運維等方面,能為用戶帶來巨大優勢。
AMD顯然也看到了這個趨勢。在Advancing AI大會上,AMD宣布正式推出Helios AI機柜基礎設施,將包括AMD EPYC“Venice” CPU、Instinct MI400系列GPU和Pensando “Vulcano” AI 智能網卡——與ROCm軟件統一整合為一個完全集成的解決方案。AMD的目標非常明確,那就是打造“The World’s Best AI Rack Solution”。
從現場披露的數據來看,Helios AI機架可容納最多72塊MI400系列GPU,總帶寬260TB/s,HBM4內存總容量31TB、總帶寬1.4PB/s。整機性能,Helios AI 機架可高達 FP8 1.4EFlops ( 140 億億次每秒 ) 、FP4 2.9EFlops ( 290 億億次每秒 ) 。
正如蘇姿豐博士所講的,AMD是唯一具備全面覆蓋數據中心、邊緣及終端設備端到端AI能力的供應商,擁有支撐全棧AI所需的硬件矩陣與軟件實力。在過去的六年中,AMD EPYC在服務器CPU市場上實現了超過18倍的份額提升,從原來的2%上升到40%(1Q25);我們完全有理由相信,在更加波瀾壯闊的AI時代,在“領先技術+開放生態+全棧方案”的加持下,AMD將會迎來新一輪成長。