发布时间:2021-12-03 10:46 原文链接: 让超算有弹性,用超算更自由


阿斯顿马丁·红牛车队是世界一级方程式锦标赛(F1赛车)颁奖台上的常客。这背后的秘诀,除了红牛车队拥有性能优异的赛车和技艺娴熟的车手之外,他们还有一招“高科技”。

在每次比赛之前,红牛车队都会动用超级计算机根据赛道及比赛环境做数字模拟,这包括但不限于使用虚拟风洞来优化赛车的空气动力学模型、模拟电源散热效率以让赛车发挥出最大功率、模拟赛车撞击来优化车身结构以及让赛车符合比赛的安全规定等等。总之,借助超级计算机,红牛车队会利用一周的时间完成这一系列针对性的模拟和优化,以保证他们在每一场比赛都有备而来。

这是高性能计算机(HPC,也称超算)有着广泛用途的一个例证,各行各业都有机会通过超算挖掘潜力。然而麻烦在于,并非所有希望用上超算的人或团队都有红牛车队那样雄厚的背景,有机会搭建一套完全属于自己超算平台。事实上,怎么用上“高大上”的超算,长期以来都是困扰供需两方的一大难题。

尤其是,HPC当前还面临着与大数据和人工智能应用融合的新场景。

传统超算应用的痛点

事实上,各大超算中心不可谓不开放。以广州超算为例,部署于此的“天河二号”超级计算机作为大湾区顶尖的超算平台,是粤港澳高校院所眼里的香饽饽。为了提高其资源共享能力,2018年广州超算还联合9家粤港澳高校成立“粤港澳超算联盟”,推动超算资源共享。

青云QingCloud云平台&服务部高级总监陈海泉观察后认为,这类大型超算的使用方式有两个潜在的痛点:不方便和不安全。

传统的超算中心用户在申请使用超算平台时,首先要提交申请,并等待人工审批;当审批得到通过后,用户需要自行安装VPN客户端以连接超算中心提供的登录节点。

而要说明的是,一些大型超算中心的登录节点往往是多用户共享的。陈海泉说,共享登录节点有两个问题,一是超算中心为了保证其自身安全,不提供用户根用户权限(即root权限),这会给用户安装应用软件带来一些麻烦——比如用户如需要安装系统软件,需要到超算中心实地现场指导运维人员安装;二是Linux系统漏洞不可避免,如果漏洞被个别用户利用得到root权限,就能窃取平台上其他用户的数据。

猛增的大数据和人工智能业务,也对传统超算提出着新的挑战。

陈海泉认为,大数据应用自带两大需求:存储容量大、存储要求多(数据类型多样),单一超算资源难以同时满足用户“既要计算性能、又要存储容量、还要价格便宜”的诉求;而许多人工智能业务则需要充足的GPU资源,以及匹配的软件框架(如TensorFlow等),这对于以Slurm调度器为主的超算中心而言也意味着很大的挑战。

镇痛药方:弹性高性能计算

洞察到这些痛点,从事企业级云计算服务的青云QingCloud于11月23日宣布入局高性能计算,希望通过云平台的加持,解决超算应用中的挑战。

青云用“云平台+超算”开出的“药方”,是弹性高性能计算(EHPC)。

弹性,顾名思义,是希望提供的超算资源灵活可伸缩。如何做到弹性?青云的做法是,依托超算中心构建算力池,用公有云服务的方式,提供用户所需的算力及扩展。简而言之,青云EHPC对超算中心提供运营服务,对超算用户提供超算应用入口。

换句话说,青云在超算与用户之间扮演了一个类似房屋中介的角色。

陈海泉认为,基于上述超算应用的痛点,青云这个“中介”能够发挥独特作用。比如,在虚拟化技术加持下,QingCloud EHPC平台提供用户独立(相互隔离的)计算、网络、存储空间,用户拥有独享的登录节点,同时借助虚拟化技术还可快速为不同业务构建其所需的运行环境,并可随时在不同软件平台切换,充分利用超算中心的硬件资源满足各类业务需求。

拥有独享登录节点并不是EHPC的全部,毕竟独享登录节点和独享HPC集群还有所区别。据QingCloud EHPC产品经理苗慧介绍,青云还可为用户提供独享的EHPC集群。

在独享EHPC集群下,用户可以拥有一个根用户账号(root账号),这使得用户不仅能够自由安装所需系统软件,还可以自由搭配所需的计算、存储、网络等硬件,以满足特定业务场景。当然,这种模式下也不必排队等待,可以像红牛车队那样自由地享用超算便利。

不排队不浪费的算力网络

在为传统超算应用中存在的痛点开出药方的同时,也考验着青云QingCloud这样的“中介”的技术能力。他们一头连着超算,一头连着各行各业的用户,需要不仅摸得清超算的“脾气”,还要对不同专业有所洞察:他们用什么软件、该如何调试运行脚本、出现问题该怎么应对等等。因此,这是一个技术含量高、综合能力强的“中介”角色。

青云是一家有着公有云服务基因的技术公司,他们在与用户的交互中也有机会锻造一批交叉技术人才。苗慧也表示,青云有专门的EHPC技术支持队伍,现在规模有数十人,他们主要面对非计算机专业用户的应用问题。当然,作为必备,QingCloud EHPC还有丰富的应用软件,涵盖分子生物学、新材料、新能源、大气海洋环境、地球物理等领域,这些软件通过共享软件目录的形式,供用户调用。

目前,青云已经与某国家级超算中心等超算平台展开合作,通过将超算中心接入分布式云节点的方式,让超算平台实现开放共享。


相关文章

我国学者实现亿级原子生物分子拉曼光谱量子力学模拟

图在国产超算上实现包含亿级原子的生物分子体系的拉曼光谱量子力学模拟在国家自然科学基金项目(批准号:T2222026)等资助下,中国科学技术大学精准智能化学重点实验室商红慧教授、杨金龙教授团队与中国科学......

中国超算艰难突围记

文丨《中国科学报》记者赵广立20世纪八十年代我国高性能计算机(即“超算”)完全依赖进口西方国家为了封锁超算核心技术同时为了限制中方对超算的使用规定出口到中国的超算必须装在一座透明玻璃房内钥匙须由他们掌......

大模型训练遇“算力荒”,“超智融合”来帮忙

论及当下计算技术的发展方向和趋势,“超智融合”当仁不让——在今年6月发布的2024年全球“最节能超算”榜单(Green500)上,位列榜单前三的超算都采用了“超智融合”的技术理念。超智融合,顾名思义,......

国内首个“四算”融合试验场在闽发布

5月24日至25日,第七届数字中国建设峰会在福州举行。大会同期举办以“新质领航量见未来”为主题的2024量子信息论坛。在该论坛上,中国电信展示了其在量子领域的技术进展、产品成果、平台能力和应用场景案例......

擘画计算产业新画卷,国家超算互联网正式上线

4月11日,首届超算互联网峰会暨国家超算互联网平台上线仪式在天津举办,来自部委、中国科学院、中国工程院、省级科技厅、计算产业链相关企业等专家、代表数百人共聚一堂,见证了这一历史性时刻。工信部高新司领导......

美将用E级超算模拟核反应

据美国能源部下属阿贡国家实验室官网26日报道,该实验室科学家计划使用其即将推出的百亿亿级(E级)超级计算机“极光”,来深入研究各种核反应堆模型的内部力学原理。这些模拟将提供前所未有的细节,提高科学家对......

吴立新院士:超算是透明海洋技术体系的重要组成部分

海洋与地球系统科学的发展事关气候、能源、资源、环境、粮食等安全,是人类居住的重要空间依托和贸易的关键通道,也是地球气候系统最为重要的调节器。目前只有5%-10%的海洋被人类所探索,超级计算是透明海洋技......

展望量子与超算的融合发展

LRZ与联想和英特尔合作的超级计算机SuperMUC-NG曾在2019年全球高性能计算机TOP500榜单中排名第9。图片来源:莱布尼茨计算中心莱瑟教授介绍LRZ的量子集成中心。记者李山摄位于慕尼黑附近......

15倍提升!华科大团队再破超算存储世界纪录

近日,《中国科学报》从国际超算大会ISC2023获悉,华中科技大学并行数据存储实验室(HUST-PDSL)联合华为分布式存储和济南超级计算技术研究院研发的OceanFS2超算文件系统,以突破性技术获得......

大湾区科学论坛:超算互联网平台将破解“算力荒”

2023年大湾区科学论坛信息与通信分论坛(下称“信通论坛”)于22日在广州举办。国家高性能计算机工程技术研究中心副主任曹振南透露,国家超算互联网平台(下称“超算互联网平台”)已进入研发阶段,将逐步落实......