在“星空人工智能+”行動深入推進的當下,算力基礎設施已成為國家戰(zhàn)略競爭力的核心,而超大規(guī)模集群的運維管控難題卻日益凸顯。中科曙光scaleX萬卡超集群打造的智能管理體系,正以“能管住-管得穩(wěn)-用得好”的進階邏輯,重塑超大規(guī)模算力基礎設施的運行范式,讓萬級節(jié)點協(xié)同從行業(yè)痛點變?yōu)楦咝СB(tài)。

集群管理的基石,始于數(shù)字孿生構建的“鏡像世界”。曙光將物理集群的業(yè)務、節(jié)點、網(wǎng)絡、供配電等全鏈路映射至數(shù)字空間,實現(xiàn)全域透明可視與精準管控。在此基礎上,智能運維助手以“實時分析-智能診斷-根因定位-故障恢復”四步流程,為運維人員提供一體化視圖,讓集群狀態(tài)“看得見、摸得著”。
三層閉環(huán)架構的智能化運維平臺,推動集群從“可觀測”升級為“可決策、可執(zhí)行”。
在數(shù)據(jù)可觀測層,全量采集指標與日志等數(shù)據(jù),通過CMDB清晰呈現(xiàn)資產拓撲;在知識與算法層,結構化沉淀專家經驗,以“規(guī)則+數(shù)據(jù)”雙驅動實現(xiàn)精準異常檢測;在場景自動化層,針對常見和關鍵場景,定義標準化流程,通過自動化工具實現(xiàn)故障自愈與復盤。
這套體系最終將集群長期可用性鎖定在99.99%,意味著30天內不可用時間不足4分鐘,將“故障”變成系統(tǒng)自動化處理的日常狀態(tài)。
穩(wěn)定性是底線,算力效率是核心競爭力。scaleX萬卡超集群已實現(xiàn)單集群支撐15000+節(jié)點、服務12萬+用戶,每秒并發(fā)調度萬級任務,背后離不開三大關鍵調度能力。數(shù)據(jù)親和性算法優(yōu)先“讓任務找數(shù)據(jù)”,規(guī)避冗余遷移;智能調度引擎動態(tài)匹配任務與資源,平衡優(yōu)先級、公平性與成本;多元融合調度則兼容HPC、AI、云原生任務,兼顧吞吐與隔離,配合存算傳緊耦合優(yōu)化,使AI加速卡利用率提升55%。
值得關注的是,這套管理體系與硬件創(chuàng)新深度協(xié)同。依托單機柜640卡的超高密度設計、浸沒相變液冷技術及自主研發(fā)的高速網(wǎng)絡scaleFabric,管理系統(tǒng)可充分釋放5EFlops總算力,同時將PUE控制在1.04,實現(xiàn)高效能與低能耗的統(tǒng)一。作為“AI計算開放架構”成果,scaleX萬卡超集群兼容多品牌加速卡,適配400+主流大模型,覆蓋大模型訓練、金融風控等多元場景。
曙光用技術實踐證明,超大規(guī)模智算集群的終極目標,不是節(jié)點數(shù)量的堆砌,而是構建自感知、自診斷、自修復、自優(yōu)化的智能算力基礎設施,期待與更多產業(yè)伙伴攜手,突破算力瓶頸,共建中國AI計算開放的新生態(tài)。
星空人工智能技術網(wǎng) 倡導尊重與保護知識產權。如發(fā)現(xiàn)本站文章存在版權等問題,煩請30天內提供版權疑問、身份證明、版權證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時溝通與處理。?。?a href="/">首頁 > 星空人工智能產業(yè) > 智能物聯(lián) » 特寫|萬卡集群:管得好,才能算得強