8月30日,中國移動智算中心(哈爾濱)正式建成并投產使用,作為國內運營商最大的單集群智算中心,無論從前期的規劃設計、技術體系制定還是現場的規模數量、設備多樣性、建設驗收都是一項巨大的、復雜的系統工程。在工程最繁忙的時候,現場有來自中國移動內部相關單位以及設備商、集成商等外部合作伙伴近200名技術人員。而在其中,一名來自中國移動研究院的特殊的“數智員工”——“AUTO行云”自動化集成驗收工具,以其兢兢業業的工作態度和高效可靠的工作能力,為這一里程碑式的智算萬卡集群順利上線提供了有力保障。
萬卡集群的高效交付為什么需要“數智員工”
近年來,以大模型為代表的人工智能技術取得了飛速發展,這一對未來影響深遠的技術變革,使得作為人工智能發展基礎的大規模智算中心的建設,也日漸成為各大企業乃至大國之間競爭的新焦點。在這一過程中,不僅算力規模日益龐大,從千卡向萬卡乃至未來十萬卡的量級快速擴張,算力基礎設施的快速供應也也成為關鍵。據消息稱,馬斯克最近投產的10萬卡超算集群,從硬件安裝到投入訓練,總共只花了19天時間。
與此同時,在大規模基礎設施特別是萬卡新型智算中心建設過程中,數千臺設備、數萬條網絡連線、數十萬項各類設備規格等等,會不可避免的發生設備硬件故障及驅動程序錯誤、網絡連線及光模塊問題,以及人工設備參數配置錯誤等。必須要對硬件進行全面、準確的驗收檢查,發現、定位和幫助整改各類問題,以高質量的算力基礎設施確保后續大模型訓練的正常運行。
可以想見,對于如此大的工作量,如果采用人工,即使可以通過投入大量資源完成測試,項目工期也是完全不可接受的。為應對這一挑戰,中國移動研究院自研的“AUTO行云”自動化集成驗收工具應運而生。幾年來,該工具已經在網絡云、IT云和智算中心等320多個資源池建設中累計應用超過30萬臺服務器,將超過95%的人工操作轉為自動化,使配置驗收環節效率提升10倍以上,整體工期縮短2/3以上。
為了便于現場使用自動化工具開展集成驗收,AUTO團隊打造了可遠程訪問的AUTOBox軟硬一體機設備,每當有類似哈爾濱智算集群這樣的大規模算網基礎設施建設項目,一臺AUTOBox就會作為一名“數智員工”出差到現場,成為輔助項目集成和驗收的技術中堅力量。
AUTO“數智員工”(位于哈爾濱萬卡集群)
“數智員工”在哈爾濱萬卡集群中的表現可圈可點
在哈爾濱萬卡集群現場,研究院這名被大家親切稱之為“小5”(編號為AUTO-5)的“員工”,在歷時近2個月的集成驗收測試期間表現可謂可圈可點,獲得大家的一致認可。
勇于擔當,直面困難不退縮。哈爾濱萬卡集群的各類服務器、交換機等設備數量超過6000臺,連線數量近7萬條,這一規模比AUTO以往驗收過的最大規模資源池還要大3倍以上。雖然AUTO團隊特意選派了“身體素質好、戰斗力強”(設備配置高、性能強)的“小5”前往哈爾濱,但在開始工作之處還是遭遇了嚴重的性能挑戰。
例如,其它集群中,一般1小時就可以完成的一輪全量驗收測試,在萬卡智算集群中需要耗費7至8小時。由于龐大的數據量對數據庫造成的壓力,可視化測試驗收界面在加載數據時頻繁出現響應緩慢,使得一線工程師難以實時監控和了解測試的具體進展。為此,AUTO團隊迅速在調度策略、數據庫寫入次數、SQL執行解耦、界面加載優化等多維度制定優化措施,保障“小5”的運行性能。經過不斷努力,將單輪全量測試時間壓縮到2小時以內完成、錯誤用例的重測間隔時間更是控制到半小時以內,頁面響應速度也大幅提升。
勤勉盡責,默默嚴守質量關。從7月初進駐現場開始,“小5”就默默地待在機房的一個角落,保持著7×24小時的高強度、不間斷自動運轉。哈爾濱智算集群的驗收用例總計超過25萬個,“小5”一輪接著一輪運行,第一時間通過頁面、郵件等方式匯報測試結果和發現的問題。
“小5”同時也是連接智算集群、一線工程師和AUTO團隊的媒介。一方面,AUTO團隊和一線工程師均可通過“小5”獲取測試結果的整體情況和詳細報告,并安排“小5”對部分測試用例進行臨時復測,或者通過更新代碼、數據來升級“小5”的能力。另一方面,“小5”還自帶最新的基于大模型的“智能助手”,協助現網工程師實現快速問題分析并指導整改。
AUTO運行界面(位于哈爾濱萬卡集群)
持續進步,高效掌握新技能。在AUTO平臺以往的使用模式中,為保障測試過程和結果的準確和可靠,通常需要人工預先準備詳盡的期望值數據作為驗收的依據,期望值的內容如有錯漏將直接影響自動化驗收的結果。在本次哈爾濱萬卡集群中,面對6千余臺設備規模、約40種配置模型、每種模型包含30余個參數項的復雜場景特征,如何在盡量減少人員投入、避免反復溝通的情況下,快速準確準備數據成為關鍵問題。
為解決這一難題,AUTO團隊為“小5”增加了“自學習”的能力。通過我們稱之為AUTOZero的無監督自學習的數據管理算法,通過現場采集設備信息,采用智能算法來預測各類設備的組件規格、配置參數等期望結果,實際使用中預測準確率達到95%以上,可減少80%的數據準備及校驗工作量,顯著縮短了驗收的準備時間。
即時響應,周到服務暖人心。在現場駐守的“小5”背后,是AUTO平臺軟件開發和實施支撐團隊的近10名經驗豐富的研究院同事。“保姆式服務”,是黑龍江省公司負責萬卡集群驗收的網絡部同事們,對AUTO團隊現網支撐的敏捷響應和實干精神有感而發的一個“詞”。AUTO團隊為保障萬卡資源池的順利進行,多次與省公司和一線工程師溝通,根據現場需求快速響應實現分批測試、定位報錯設備位置信息、頁面會話保存、LLD更新時間等功能。通過多方的實時溝通,以及快速的測試問題整改響應,哈爾濱萬卡集群第一批設備在一周內測試通過率迅速提升至99%,成為智算驗收過程中整改速度最快的集群。省公司同事自己測算,整體驗收效率提升73%以上,通過節省智算集群的上線時間,也進一步降低了能耗、人工等多項成本。
面向未來,AUTO“數智員工”時刻待命
兩個“100”天打造了哈爾濱萬卡集群建設交付的圓滿佳績。AUTO在這個過程中也邁上了新臺階,不僅在集群規模上突破了歷史記錄,更是在流程、性能、功能、服務等各方面都取得了新的里程碑式成果。
哈爾濱1.8萬卡的超大規模智算集群成功上線,未來更多、更大的智算集群仍然在路上。在交流中,省公司對AUTO也提出了更多的應用場景和功能需求,如自動化設備參數配置、標簽智能化識別、數字孿生場景的網絡拓撲實現等等。“小5”和小伙伴們將在前期積累的技術創新和實戰經驗,以及與項目一線的良好合作的基礎上,進一步提升能力,隨時準備奔赴新的智算中心建設現場,為公司智算集群建設和國家算力基礎設施的高質量發展做出貢獻。