騰訊(鵝廠)正式發(fā)布了其新一代高性能計算集群,并宣布該集群能夠在最快4天內(nèi)完成萬億參數(shù)級別大模型的訓練任務,標志著國產(chǎn)AI算力基礎設施邁入新的里程碑。該集群不僅聚焦于極致算力,更在數(shù)據(jù)處理與存儲支持服務上實現(xiàn)了全方位升級,為大規(guī)模AI研發(fā)與應用提供了堅實可靠的底層支撐。
這一算力集群的核心突破在于其超強的并行計算能力與優(yōu)化后的軟硬件協(xié)同架構。通過自研的AI加速芯片、高速互聯(lián)網(wǎng)絡以及分布式訓練框架的深度整合,集群有效克服了萬卡級規(guī)模下的通信瓶頸與負載均衡難題,從而將訓練萬億參數(shù)大模型的時間縮短至數(shù)天級別。這一效率的提升,極大加速了模型迭代與創(chuàng)新的周期,使得研發(fā)團隊能夠更快速地將前沿AI技術轉化為實際應用。
在數(shù)據(jù)處理層面,鵝廠針對大模型訓練中海量、多源、非結構化數(shù)據(jù)處理的痛點,構建了一體化的數(shù)據(jù)處理流水線。該服務提供了從數(shù)據(jù)采集、清洗、標注到增強的全流程工具鏈,并內(nèi)置了強大的隱私計算與合規(guī)檢測機制,確保數(shù)據(jù)在使用過程中的安全性與合法性。平臺支持對萬億token級別的文本、圖像等多模態(tài)數(shù)據(jù)進行高效預處理,為模型喂養(yǎng)高質量“數(shù)據(jù)燃料”。
存儲支持服務是本次發(fā)布的另一大亮點。面對訓練過程中產(chǎn)生的中間狀態(tài)、檢查點及海量參數(shù)帶來的存儲挑戰(zhàn),集群配備了高吞吐、低延遲的分布式存儲系統(tǒng)。該系統(tǒng)采用分級存儲策略,將熱數(shù)據(jù)、溫數(shù)據(jù)、冷數(shù)據(jù)智能分層,并利用糾刪碼等技術提升可靠性與存儲效率。服務提供了快照、容災備份與無縫擴展能力,確保長時間、大規(guī)模訓練任務的穩(wěn)定運行與數(shù)據(jù)安全。
鵝廠此次發(fā)布的算力集群及配套服務,不僅是其“AI+云”戰(zhàn)略的重要落地,也為行業(yè)提供了從算力、數(shù)據(jù)到存儲的端到端大模型解決方案。它有望降低AI研發(fā)的門檻與成本,推動科研機構與企業(yè)更專注于模型算法與場景創(chuàng)新,進而加速千行百業(yè)的智能化轉型。隨著技術的持續(xù)迭代與生態(tài)的完善,國產(chǎn)算力基礎設施將在全球AI競爭中扮演愈發(fā)關鍵的角色。