发布时间:2023-08-10 18:48 原文链接: 液冷:助AI算力从源头节能

原文地址:http://news.sciencenet.cn/htmlnews/2023/8/506348.shtm

自以ChatGPT为代表的人工智能(AI)大模型引爆IT圈以来,国内多家企业或机构纷纷推出相应的大模型产品,堪称“百模大战”。当人们还在比较哪家的“类ChatGPT”产品更智能之际,“曙光数创”这家IaaS公司却因其“液冷龙头”的身份率先“火”了。

据赛迪顾问《2023中国液冷应用市场研究报告》显示,2021年至2023年上半年,曙光数创以平均58.8%的市场份额,位列中国液冷数据中心基础设施市场部署规模第一,多年稳居行业头名。

这背后藏着什么样的现实逻辑?

《2023中国液冷应用市场研究报告》现场分享。曙光数创供图

部署大模型?优先选液冷

日前,曙光数创在京举办了一场战略发布会,发布其“冷平衡”战略,对标当下液冷技术在数据中心落地中的“强劲性能、绿色低碳、可控成本”的三元平衡需求。

在当天会后的媒体见面时间,曙光数创相关负责人谈到了“大模型产品陆续问世,给液冷产业带来哪些变化”的话题。

“我们感受最深的是,数据中心要解决的散热问题,变得比五年前、七八年前越来越紧迫。”曙光数创产品规划部负责人白泽阳说道,特别是大模型兴起以来,小到芯片散热、服务器功耗,大到数据中心用电,近一两年提升速率几乎超过了此前五年的增幅。

而这,也让他们坚定了“大力深耕液冷行业、不断推进液冷方向技术创新”的决心。

以ChatGPT为代表的AI大模型训练,需要极大的算力支撑。如GPT-4大模型约需要2~3万张A100卡,训练一个月左右时间。与此同时,我国算力与存力建设同样处于高速发展阶段。截至2022年底,我国在用标准机架超过650万架,算力总规模达180EFLOPS,存力总规模超过1000EB(1万亿GB)。 

一面是激增的存算基础设施,另一面则是政策对数据中心能耗更严格的限制。工信部等多部门联合印发的《绿色数据中心政府采购需求标准》已于今年6月1日施行。该文明确要求,2023年6月起,新部署数据中心PUE不高于1.4,2025年起不高于1.3。 

PUE取自数据中心总能耗与IT设备负载能耗的比值,是反映数据中心是否绿色环保的最直接指标,越接近数字“1”则显示数据中心能效水平越高。为AI大模型预训练提供算力的数据中心,往往需要大量高功率、高密度服务器,对AI算力中心而言,“低PUE部署”几乎是刚需。

“往往高功率的服务器、全闪存存储服务器等,由于芯片功耗太高了,会优先用液冷。不过,许多通用服务器也在部署液冷。”曙光数创副总裁张鹏表示,市场选择液冷服务器是出于总体考虑,包括成本、安全性和可靠性,“在选择液冷部署方面,互联网企业需求最凶”。

互联网企业对液冷的选择其实很好理解:算力需求暴增,数据中心作为“能耗巨兽”正迎来低碳节能等议题的挑战。

液冷还不是主流选择

有研究数据显示,2020年,我国仅数据中心的用电量就超过2000亿千瓦时,占国民总用电量的2.7%;预计2023年这组数据将变为2500亿千瓦时和3%,2030年达到惊人的4000亿千瓦时和3.7%。

如此巨大的能源使用,按照PUE值为1.5计算,散热系统将占到30%以上——不用还不行,如果不做好散热,将直接影响数据中心的性能、稳定性和可靠性。

绿色和发展,必须兼顾。能够精确制冷散热、相比风冷散热效率有着千百倍提升效果的液冷,事实上为算力经济可持续发展提供了一条可行的解决之道。 

不过,液冷至今还不是数据中心的主流选择。

张鹏分享的一组统计数据显示,目前95%以上的数据中心仍然选择传统的风冷散热模式——因为服务器此前都是风冷。中国每年服务器的采购量约在200~300万台之间,其中液冷散热机型的渗透率仅为5%~8%。曙光数创作为液冷龙头,约占这部分市场58.8%的份额。他认为,随着市场对液冷的认可,未来几年内这个数据可能会增长至15~30%之间。

液冷散热机型渗透率低,存在一些现实困难,比如改造成本,比如数据中心的设计规划等。 

“原来的数据中心机房,都是按照风冷散热进行规划设计的,那么它部署液冷设备就会有困难。”白泽阳告诉《中国科学报》。

不过,白泽阳也表示,机房不适于部署也会在用户接纳液冷后在设计和规划阶段解决。现在液冷部署还存在一个比较棘手的情况:缺乏统一标准。

从标准入手加点“绿”

“现行一些标准与国家对数据中心要求不匹配,比如液冷设备的供水供电,与传统风冷数据中心有些细节甚至是相左的。”白泽阳说,从曙光数创的角度,希望能联合上下游企业一起推动更适用于液冷时代的行业标准、国家标准的落地。

他们也一直朝着这个方向努力。据张鹏介绍,迄今为止,曙光参编的与液冷技术相关的标准已超20个,包括行业邀请、协会组织和一些国标的制定。但张鹏更希望,未来三年,能否把这些标准统一?

“这一定是大势所趋。”张鹏说,如果标准不一甚至“百标齐放”,不仅对IaaS厂商而言绝非好事,用户也会陷入纠结和迷茫,对液冷数据中心能否可持续打下问号;而如果统一标准,液冷数据中心的设计建设、节能设备验收、液冷机房运维等将变得清晰,势必会对行业降低部署成本、拥抱绿色计算带来更多积极意义。

在液冷技术落地方面,曙光数创拥有一定的发言权。

曙光不仅早在2011年就开始投入液冷技术研发,还早在2015年就有了第一批商用的冷板式液冷设备下线、2018年部署了第一套商用化浸没液冷设备,并各自拥有时间最长的应用案例。

在此次“冷平衡”战略发布会上,曙光数创发布了其总结多年经验的SLiquid液冷技术品牌和CloudBASE数据中心整体解决方案品牌,为相关标准的落地提供有力的技术与产品支撑。 

曙光数创“冷平衡”战略暨SLiquid品牌发布仪式。曙光数创供图

相关文章

新方法可提高图神经网络处理数据的准确率

山西大学智能信息处理研究所团队在图神经网络研究方面取得重要进展,相关成果5月23日发表于人工智能领域国际期刊《IEEE模式分析与机器智能学报》(IEEETransactionsonPatternAna......

电影《749局》科影融合特别场举行

原文地址:http://news.sciencenet.cn/htmlnews/2024/10/531421.shtm10月11日,科幻电影《749局》科影融合特别场在京举行。电影主创团队与科技领域相......

甘肃林业职业技术大学揭牌成立

10月11日,甘肃省迎来了职业教育领域的一个重要里程碑——甘肃林业职业技术大学正式揭牌成立。这一历史性时刻标志着历经六十八载发展的甘肃省唯一一所林业类高等院校,正式迈入了本科教育的新阶段,开启了新的征......

守护“水塔”,在“世界屋脊”上打一场攻坚战

”标志性科考活动获系列重大突破 “第二次青藏科考标志性科考活动守护水塔‘一原两湖三江’科考主体任务已经基本完成,这次科考从天到地、从冰到水取得了全方位的进展。”第二次青藏科考队队长、中国科学......

关于确定2024年国家环境健康管理试点名单的通知

关于确定2024年国家环境健康管理试点名单的通知北京市、河北省、内蒙古自治区、辽宁省、黑龙江省、江苏省、浙江省、江西省、山东省、湖北省、湖南省、广东省、重庆市、四川省、贵州省、陕西省、青海省生态环境厅......

首个菊科多组学数据平台AMIR发布

10月8日,华中农业大学果蔬园艺作物种质创新与利用全国重点实验室、药用植物资源可持续利用团队梅之南教授和杨庆勇教授课题组,发布了首个专门面向菊科植物的多组学数据库平台——AsteraceaeMulti......

南邮“金牌教练”:清醒状态下“时时在线”

实验桌上堆放着精密仪器和焊接工具,电脑上是正在运行的电路图,一页页写满了数据、画满了图样的纸张在桌面铺开,各式或大或小的电子元件前,南京邮电大学工程实验教学部创新中心副主任郝学元正在埋首研制电工电子实......

中国计量大学主持制定的两项国家标准正式发布

近日,记者从中国计量大学获悉,该校生命科学学院蜜蜂与蜂产品学研究团队主持的两项推荐性国家标准《GB/T44349-2024 蜂花粉总多酚的检测福林酚试剂比色法》和《GB/T44350-202......

多级赋码追溯柔性包装生产线研制与应用通过鉴定

10月10日,由广东省机械行业协会组织并主持召开的“面向软性物料的多级赋码追溯柔性包装生产线研制与应用”项目科技成果鉴定会议在广东佛山举行。经专家鉴定,该项目成果总体技术水平达到国际先进水平。记者获悉......

我国科学家获得全球首个纯合基因编辑橡胶苗

近日,中国热带农业科学院橡胶研究所组培与转基因团队在全球率先获得了橡胶树CRISPR/Cas9纯合基因编辑橡胶苗。相关研究成果在线发表于《经济作物和产品》(IndustrialCropsandProd......