2023年是人工智能发展的重要转折年,AIGC技术取得了突破性进展,大模型训练、大模型应用等新业务正在快速崛起,作为智能算力的载体,数据中心也已经从数据机房、通算中心,发展到现阶段的超算中心和智算中心。据统计,全国已有超过30个城市正在建设或提出建设智算中心,巨大增长的算力需求吸引了众多企业进入算力领域,2023年我国算力基础设施已经进入了多样化发展的繁荣期。
智算中心作为新型算力基础设施的重要组成部分,具有巨大的发展潜力和市场空间。但由于其承载的业务结构、业务类型与传统业务相比有较大不同,传统数据中心无论从架构上还是技术上均已很难与之匹配,2023年算力基础设施出现了全方面的调整和优化以应对这种转变。
政策和需求双重推动,算力基础设施持续高速发展
2023年,我国数据中心发展与全球趋势基本一致,正在从高速成长期转入平稳发展期,但随着新政策以及AIGC等利好因素的多重作用下,我国数据中心市场又迎来了新一轮机会。2023年10月,工业和信息化部等六部门联合出台了《算力基础设施高质量发展行动计划》,从计算力、运载力、存储力以及应用赋能四个方面提出了到2025年要实现的发展量化指标,引导算力基础设施高质量发展,多措并举协同推进数据中心规划建设,推动数网融合,推动算力产业链。按照计划,我国在2023年底建成30个智算中心,到2025年底将达到50个。
国家信息中心发布的《智能计算中心创新发展指南》显示,预计未来5年中国智能算力规模在需求、政策、市场环境等多重因素的影响下,年复合增长率将达到52.3%。智算需求的增长推动智算中心的建设,将对国内数字经济发展产生深远影响,随着人工智能技术在多个领域的落地,未来几年这一趋势有望持续。
算力部署呈现集群化,单点高密度已成趋势
公开资料显示,截至目前国内发布的AI大模型等智算产品已经超过200个,数量仍在持续增加。智算时代与传统的云计算时代、算力时代有着非常大的差别,数据中心从规划设计到建设运营均已发生了实质上的转变,多生态、多样性、快速部署、弹性匹配已逐渐成为新的标准。总体上来说,2023年智算中心和传统数据中心相比,在结构上和规划上展现出以下几大特点:
一是园区呈现规模化部署。传统云计算等业务基本都是多地多中心的体系架构,而智算中心更多表现为大规模单点的高功率集群,园区通常还会配有自建的110kV或66kV专用变电站,不但可以满足几十兆瓦以上的电力供应需求,还可以实现园区内更加灵活的自主电力调度,更好的匹配算力。
二是机房转向高密度架构。高算力业务需求推动高密度芯片发展,据显示,在过去十多年时间里,GPU热设计功耗(TDP)激增了四倍多,2023年TDP接近1000W的芯片已经存在。智算业务正加速服务器的高密化部署,机柜功率密度已经从几kW向着几十kW快速转变,这一趋势给数据中心热管理带来了重大挑战。传统数据中心通过电力改造、制冷改造已经很难满足新需求,多个机房而不是单个机柜如何整体转向高密度架构也成为2023年业内关注的焦点之一。
三是网络匹配并行计算。智算系统具有高密度集中的特点,对数据的通信交互和通信时延有着极高的要求。传统网络架构下,单一机房可能需要上千条光纤链路互联,很多时候数据通信的时间占到计算全过程时间的50%以上,已经成为影响整体效率的关键环节。智算系统的卡间、机柜间、节点间内部互联必然需要高速并行网络去匹配,综合布线也需要同步调整。
四是资源满足弹性调配。智算业务由于负载具有大幅度突增突减的特点,通常需要整机房、整栋楼的资源进行弹性调度,而不是某个机房或者部分服务器的简单扩展调度。因此需要更高度的架构匹配、电力匹配、制冷匹配和网络匹配,数据中心规划、建设和运营阶段都面临重大的挑战。
算力基础设施全方位匹配,定制化更具适应性
2023年,智能算力与通用算力、超级算力协同发展,数据中心的设计建设模式也在发生变化,从过去的标准化、预制化、快速交付,转向了定制化、弹性化、适配性,智算中心更注重利用先进技术做出调整做好匹配,呈现以下特点:
一是架构选择上更加灵活。智算业务对业务连续性的要求通常达不到金融、互联网等业务的标准,对数据中心可靠性的要求也在变低,因此运营商可以通过分级细化去满足不同可靠性的要求,而不必一定达到GB50174-2017《数据中心设计规范》中A级数据中心的标准。例如,处于搭建、训练、测试等成长阶段的业务,并不要求实时性,因此数据中心可以只提供双路供电,并不需要搭建柴发系统等备用电源甚至不需要UPS系统,只需根据变化后期配套建设即可,这将有利于园区整体投资和规划,并保持架构的灵活性。
二是基础设施全方位匹配。电力方面,高密度大规模智算系统将导致配电模型变大,未来一栋智算中心甚至可能用掉一整座66kV变电站的电力,电力匹配是关键环节;制冷方面,智算业务功率密度比传统业务要高一个等级,液冷已经逐渐成为主流,风液比例也变的越来越低。全新风直接蒸发自然冷却等技术正在普及,大容量高风墙也可能成为未来发展趋势;网络方面,高速并行计算极大的推动高吞吐、低时延的网络设备发展,推动400G商业化落地和800G标准化建立,同时也将推动综合布线拓扑变化,集中式和分布式布线相互结合,提升整体效率。
三是运维压力持续增加。业务系统的高密度给运维带来很大安全隐患,高功率密度推动液冷落地,但液冷并不是单一技术,将带来冷冻侧的重构,带给运维更大挑战。当液冷系统发生泄压、漏液、气阻等情况时,给予运维团队应急反应的时间越来越短,运维人员需要改变传统运维习惯,将基础设施和智算设备联动控制,这也对运维人员的能力提出更高要求。2023年全球已经发生多起由于运维人员应急处置不及时而引发的重大事故,要引起高度重视。
四是快速落地与远期兼容做好平衡。一方面要实现快速建设落地,满足现阶段高速发展的业务需求,一方面要尽量减少后期改造难度和费用,做好远期兼容,两者之间的平衡关键是各系统的最小颗粒度。选择适中的颗粒度需要从全程TCO角度出发,综合快速交付、运营、扩展以及性价比,以满足面对业务时的不确定性和不稳定性,这也成为2023年业内关注的焦点之一。
算力基础设施高质量发展还需迎接诸多挑战
2023年,智算时代高密化、智能化、可持续性的需求,不但促进了整个产业在技术创新、商业模式和生态建设等方面的发展,也对算力基础设施提出了更高要求。2024年,算力基础设施在产业协同、运营安全、绿色发展等方面将面对更大挑战。
一是算力产业链需要协同发展。算力、网络、基础设施需要协同,建设、运营也需要协同,避免出现短板产生“木桶效应”,整体实现最优化配置,才能达到最佳性能;二是运营安全能力与标准需要提升。在智算中心中,传统配套基础设施的价值和其运营成本将远远低于算力系统的价值,更高的业务密度和资产价值需要借助更高级别的运营安全能力和标准去保障,而这方面还需要进一步完善。三是算力基础设施深入绿色化。在规划建设阶段,液冷、储能等新技术将借助智算业务规模化落地,推动算力向着绿色低碳方向快速发展。但这些并不足以匹配我国日趋严格的绿色运营指标,在运营阶段更要引入先进技术、加大水电双控等精细化操作,才能确保算力基础设施的高质量绿色发展。