发布时间:2021-12-03 10:46 原文链接: 让超算有弹性,用超算更自由


阿斯顿马丁·红牛车队是世界一级方程式锦标赛(F1赛车)颁奖台上的常客。这背后的秘诀,除了红牛车队拥有性能优异的赛车和技艺娴熟的车手之外,他们还有一招“高科技”。

在每次比赛之前,红牛车队都会动用超级计算机根据赛道及比赛环境做数字模拟,这包括但不限于使用虚拟风洞来优化赛车的空气动力学模型、模拟电源散热效率以让赛车发挥出最大功率、模拟赛车撞击来优化车身结构以及让赛车符合比赛的安全规定等等。总之,借助超级计算机,红牛车队会利用一周的时间完成这一系列针对性的模拟和优化,以保证他们在每一场比赛都有备而来。

这是高性能计算机(HPC,也称超算)有着广泛用途的一个例证,各行各业都有机会通过超算挖掘潜力。然而麻烦在于,并非所有希望用上超算的人或团队都有红牛车队那样雄厚的背景,有机会搭建一套完全属于自己超算平台。事实上,怎么用上“高大上”的超算,长期以来都是困扰供需两方的一大难题。

尤其是,HPC当前还面临着与大数据和人工智能应用融合的新场景。

传统超算应用的痛点

事实上,各大超算中心不可谓不开放。以广州超算为例,部署于此的“天河二号”超级计算机作为大湾区顶尖的超算平台,是粤港澳高校院所眼里的香饽饽。为了提高其资源共享能力,2018年广州超算还联合9家粤港澳高校成立“粤港澳超算联盟”,推动超算资源共享。

青云QingCloud云平台&服务部高级总监陈海泉观察后认为,这类大型超算的使用方式有两个潜在的痛点:不方便和不安全。

传统的超算中心用户在申请使用超算平台时,首先要提交申请,并等待人工审批;当审批得到通过后,用户需要自行安装VPN客户端以连接超算中心提供的登录节点。

而要说明的是,一些大型超算中心的登录节点往往是多用户共享的。陈海泉说,共享登录节点有两个问题,一是超算中心为了保证其自身安全,不提供用户根用户权限(即root权限),这会给用户安装应用软件带来一些麻烦——比如用户如需要安装系统软件,需要到超算中心实地现场指导运维人员安装;二是Linux系统漏洞不可避免,如果漏洞被个别用户利用得到root权限,就能窃取平台上其他用户的数据。

猛增的大数据和人工智能业务,也对传统超算提出着新的挑战。

陈海泉认为,大数据应用自带两大需求:存储容量大、存储要求多(数据类型多样),单一超算资源难以同时满足用户“既要计算性能、又要存储容量、还要价格便宜”的诉求;而许多人工智能业务则需要充足的GPU资源,以及匹配的软件框架(如TensorFlow等),这对于以Slurm调度器为主的超算中心而言也意味着很大的挑战。

镇痛药方:弹性高性能计算

洞察到这些痛点,从事企业级云计算服务的青云QingCloud于11月23日宣布入局高性能计算,希望通过云平台的加持,解决超算应用中的挑战。

青云用“云平台+超算”开出的“药方”,是弹性高性能计算(EHPC)。

弹性,顾名思义,是希望提供的超算资源灵活可伸缩。如何做到弹性?青云的做法是,依托超算中心构建算力池,用公有云服务的方式,提供用户所需的算力及扩展。简而言之,青云EHPC对超算中心提供运营服务,对超算用户提供超算应用入口。

换句话说,青云在超算与用户之间扮演了一个类似房屋中介的角色。

陈海泉认为,基于上述超算应用的痛点,青云这个“中介”能够发挥独特作用。比如,在虚拟化技术加持下,QingCloud EHPC平台提供用户独立(相互隔离的)计算、网络、存储空间,用户拥有独享的登录节点,同时借助虚拟化技术还可快速为不同业务构建其所需的运行环境,并可随时在不同软件平台切换,充分利用超算中心的硬件资源满足各类业务需求。

拥有独享登录节点并不是EHPC的全部,毕竟独享登录节点和独享HPC集群还有所区别。据QingCloud EHPC产品经理苗慧介绍,青云还可为用户提供独享的EHPC集群。

在独享EHPC集群下,用户可以拥有一个根用户账号(root账号),这使得用户不仅能够自由安装所需系统软件,还可以自由搭配所需的计算、存储、网络等硬件,以满足特定业务场景。当然,这种模式下也不必排队等待,可以像红牛车队那样自由地享用超算便利。

不排队不浪费的算力网络

在为传统超算应用中存在的痛点开出药方的同时,也考验着青云QingCloud这样的“中介”的技术能力。他们一头连着超算,一头连着各行各业的用户,需要不仅摸得清超算的“脾气”,还要对不同专业有所洞察:他们用什么软件、该如何调试运行脚本、出现问题该怎么应对等等。因此,这是一个技术含量高、综合能力强的“中介”角色。

青云是一家有着公有云服务基因的技术公司,他们在与用户的交互中也有机会锻造一批交叉技术人才。苗慧也表示,青云有专门的EHPC技术支持队伍,现在规模有数十人,他们主要面对非计算机专业用户的应用问题。当然,作为必备,QingCloud EHPC还有丰富的应用软件,涵盖分子生物学、新材料、新能源、大气海洋环境、地球物理等领域,这些软件通过共享软件目录的形式,供用户调用。

目前,青云已经与某国家级超算中心等超算平台展开合作,通过将超算中心接入分布式云节点的方式,让超算平台实现开放共享。


相关文章

月球可能在数小时而非千年内形成

科技日报北京10月9日电(记者刘霞)英国科学家借助超级计算机,模拟了地球和一颗名为“忒伊亚”的原行星碰撞后可能产生的影响,得出结论称,月球可能是在忒伊亚将地球撞掉一大块并将脱离的部分抛入太空后迅速形成......

国家超算长沙中心天河新一代超算系统启动运行

中新网长沙10月9日电(张雪盈)10月9日,国家超级计算长沙中心天河新一代超级计算机系统运行启动仪式在湖南大学举行。计算是继理论与实验之后的第三种研究方法,通过计算机建模仿真等技术手段,可以在虚拟世界......

全球超算500强新榜单:美国百亿亿次级超算夺冠

今年上半年的全球超级计算机500强榜单日前揭晓,首次入榜的美国超级计算机“前沿”位列榜首,这是全球首台运算能力达每秒100亿亿次浮点运算的超算。中国共有173台超算上榜,上榜总数蝉联第一。榜单介绍称,......

全球超算500强榜单:美国百亿亿次级超算夺冠

原文地址:http://news.sciencenet.cn/htmlnews/2022/6/480160.shtm新华社洛杉矶5月31日电(记者谭晶晶)今年上半年的全球超级计算机500强榜单日前揭晓......

智能超算科研的赛道上,这家实验室在前行

将传统超算预计1万年才能完成的量子模拟计算缩短至150秒,让计算更智能,完成这项任务的是一群正在智能超算科研赛道奋力奔跑的青年人,今天的《奋斗者正青春》,我们来认识之江实验室智能超算团队。眼下,浙江省......

Meta将建世界最大人工智能专用超级计算机

Facebook母公司Meta正在建造世界上功能最强大的人工智能专用超级计算机,以开发更好的语音识别工具,在不同语言之间自动翻译,并帮助构建其3D虚拟元空间。尽管其还远未完成,但人工智能研究超级集群(......

2021超算盘点:算力经济登上历史舞台

今年是我国超算应用实现丰收的一年。在11月中旬在美国举行的全球超算大会(SC21)上,中国超算应用团队凭借基于一台神威新系统对量子电路开创性的模拟(“超大规模量子随机电路实时模拟”),一举摘得国际上高......

让超算有弹性,用超算更自由

阿斯顿马丁·红牛车队是世界一级方程式锦标赛(F1赛车)颁奖台上的常客。这背后的秘诀,除了红牛车队拥有性能优异的赛车和技艺娴熟的车手之外,他们还有一招“高科技”。在每次比赛之前,红牛车队都会动用超级计算......

中国团队获国际大学生超算竞赛冠军6人均为本科生

据清华大学网站消息,19日凌晨,国际大学生超算竞赛(SC21)结果公布,由清华大学计算机系6名本科生组建的超算团队夺得总冠军,实现SC竞赛四连冠。据了解,决赛共有全球10支队伍参加。清华参赛队伍克服了......

巴塞罗那超算中心被选作“欧洲高性能计算共同计划”地点

近日,欧盟委员会发布公报说,“欧洲高性能计算共同计划(EuroHPC)”已从欧盟成员国中选定8处地点设立世界级超级计算机中心,来自各方的项目总预算高达8.4亿欧元。“欧洲高性能计算共同计划”旨在研发欧......