发布时间:2025-01-22 15:01 原文链接: 揭秘“腾讯混元”诞生背后的“生产车间”

在国内的头部人工智能大模型研发队伍中,腾讯混元大模型率先采用“混合专家(MoE)”结构,模型参数规模突破万亿,处于中国大模型第一梯队。

许多人可能不知道,在锻造“混元”的过程中,腾讯选择的是从零开始的自研路线。

大模型的锻造,是一个在约束条件下高效地把工程、算法、数据以及业务应用整个串联起来的工作,其对组织能力的要求非常高。腾讯如何在短时间内搭建出万亿参数规模的模型?又如何突破算力极限、在训练和推理上下功夫,高效产出多款业界领先的模型?

2个多月前的2024年世界互联网大会乌镇峰会给出了答案。在乌镇峰会发布的20项世界互联网大会领先科技奖中,由腾讯公司、北京大学、北京科技大学共同申报的关键技术项目“Angel大规模机器学习平台关键技术与应用”赫然在列。

Angel机器学习平台获选世界互联网大会领先科技奖。腾讯 供图,下同

针对大模型训练和推理场景,腾讯机器学习平台Angel主要包含负责训练的AngelPTM和负责推理的AngelHCF两大部分。腾讯机器学习平台部总监陶阳宇近日接受《中国科学报》专访时表示,面对大模型训练这个复杂且庞大的任务,在“数据Ready”和“算力Ready”的基础上,Angel机器学习平台提供了一个“超级流水线”。

“集团作战”的秘密武器

训练大模型,对算力的要求是“多多益善”。因此模型训练的算力支撑,往往是成千上万张算力卡的“集团军作战”。集团作战,首重通信。陶阳宇介绍说,在解决高速网络互联方面,腾讯Angel的秘密武器是“星脉网络”。

“星脉网络是一套软硬件协同的高性能网络体系,包括自研网络设备、通信协议、通信库以及运营系统四大关键组件,支持超10万卡大规模组网。”陶阳宇说,全链路自研硬件、拥塞控制路由算法等不仅提升了网络性能,也使成本显著下降70%。

如果把大模型训练比作一场一级方程式赛车比赛,“星脉网络”就是专为其设计的高性能算力网络“赛道”。陶阳宇告诉记者,腾讯还自研了相应的网络协议作为“赛车指挥中心”,它们共同让高性能计算集群发挥最大算力性能。

此外,算力底层架构还面临着“异构混合计算”的难题:如何做好对不同款型芯片的协同支持和兼容,将其共同构建为一个强大的算力平台。

陶阳宇介绍说,为了让参差不齐的算力设备为同一个计算任务“出力”,一方面星脉网络可以通过兼容不同厂家芯片的通信协议实现芯片间的通信,另一方面,他们还提出了一种非均匀的负载切分混合训练技术,按照芯片的不同算力对计算任务中的神经网络进行不同层次切分。

“简单来说,就是让算力强的芯片多承载一些计算任务;算力弱一些的芯片少承载一些计算任务,从而使得整个计算任务没有‘木桶短板效应’,高效地完成计算。”陶阳宇说。

“让每一滴资源都被榨干”

“算力Ready”的下一步,就是如何“榨干”算力。

“算力组网连起来后,如何调度是个技术活。”陶阳宇说,让大模型训练任务、推理任务快速地用上这些算力,正是框架层需要解决的问题。

现有的算力条件下,模型达到TB级,而现有GPU的显存只有80GB,参数存储存在瓶颈。为减少显存浪费,腾讯Angel机器学习平台提出了显存主存统一视角存储管理机制。

“我们通过统一编存的方式,把显存跟主存统一打通,使得一个机器上能够放更多的参数,包括一些中间的临时变量,使得整个效率进一步提升。”陶阳宇介绍道,Angel机器学习平台通过显存+主存一体化管理技术,实现模型存储与通信的调度优化,帮助大模型任务实现灵活调度,来达到“每一滴资源都被榨干利用”的效果。

此外,Angel机器学习平台还通过模型并行、数据并行、流水并行、上下文并行等实现算力和通信的并行,再加上算子融合等优化,整个训练框架的整体性能得到有效提升。据测算,相比微软的开源框架,Angel机器学习平台训练性能提升2.6倍,推理速度提升2.3倍。

混元生成的大熊猫。

高效率“拥抱”多模态

大模型要向通用模型发展,离不开对多模态数据的处理支持。

“文字、图片、音频、视频等不同模态数据的对齐融合理解难度很大,怎么把蕴藏于其中的知识提取出来、融合在一个大模型里面,我们也做了很多工作。”陶阳宇介绍道。

具体来说,他们提出了“自适应预采样训练技术”以及“不确定性感知机制”,来实现多模态数据的融合。

其中,“自适应预采样”技术,是将训练过程和采样动作进行解耦。“传统的训练方法需要先采样、然后训练;训练之后再去采样、再训练,如此反复迭代。”陶阳宇解释道,这种串行的流程,训练跟采样不能分开,影响训练效率。而通过自适应预采样,模型训练跟预采样是分开的,训练过程中可以进行下一轮的采样,这种方式不仅更适于多模态数据融合,还可显著提升训练效率。

“不确定性感知机制”则是一种通过概率表达形式高效实现多模态知识融合的方式。陶阳宇说,传统上对不同模态数据硬性分类,忽视了知识可能同时存在于文字、图片、语音等多个模态数据中的因素,这时通过一种概率感知的方式将不同模态知识进行融合,不仅高效,而且节能降耗。Angel平台已支持腾讯混元、广告等多个场景的多模态模型的训练生产。

立足当下,面向未来

据介绍,基于腾讯Angel机器学习平台,腾讯混元大模型目前已经构建了从5亿(0.5B)到700亿参数(70B)以及万亿参数的不同尺寸通用模型和专用领域模型,涵盖了语言模型、多模态理解模型和文生图/视频模型等。这些模型已被应用于700多个腾讯业务场景,展现了其强大的应用潜力和价值。对外,Angel平台通过腾讯云输出,广泛应用在大模型、广告、推荐、社交、金融等领域,服务30万行业客户,助力实体行业进行数智化升级。

腾讯内部已有700+业务接入混元。

“现在大模型训练已经是‘万卡时代’了,未来的规模可能超过万卡。我们现在的研发方向之一,就是针对更大规模的训练场景,如何提高效率和稳定性。”陶阳宇展望说道。

腾讯机器学习平台部总经理、混元大模型负责人王迪表示,大模型训练存在“线性加速比”的问题,从万卡到十万卡,需要考虑的不光是训练规模的问题,还需要考虑交换机、路由器等通信能力方面的问题,“这是一个很值得持续探索和实践的方向”。

与此同时,陶阳宇还披露,目前他们还在探索跨数据中心的大规模训练技术。

“我们已经有了初步探索,在相隔120公里的两座数据中心之间,我们完成了千卡规模的训练任务,其效率能达到单集群的98%左右,从逻辑上看就好像一个集群。”他说,这其中会用到许多优化技术,“非常有趣”。

陶阳宇还表示,在更多支持异构算力特别是国产芯片方面,未来仍有发力点。“如何把这些异构芯片更大规模地集中起来去做训练和推理,我们已经有些探索经验了,接下来要做更灵活、更有效的国产化支持。”

相关文章

5个亿!腾讯向基金委捐赠用于资助博士研究生项目

近期,国家自然科学基金委员会与腾讯公司正式签约,腾讯公司向国家自然科学基金委员会无偿捐赠人民币5亿元,用于资助青年学生基础研究项目(博士研究生项目),重点支持其中女性、西部、粤港澳大湾区获资助者开展基......

揭秘“腾讯混元”诞生背后的“生产车间”

在国内的头部人工智能大模型研发队伍中,腾讯混元大模型率先采用“混合专家(MoE)”结构,模型参数规模突破万亿,处于中国大模型第一梯队。许多人可能不知道,在锻造“混元”的过程中,腾讯选择的是从零开始的自......

腾讯大模型上线文生视频并宣布开源

据腾讯官微消息,腾讯今日宣布,混元大模型上线并开源文生视频能力。据介绍,该模型参数量为130亿,已经在HuggingFace平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企......

支持超10万卡组网,腾讯星脉网络2.0发布

大模型持续迭代,AI基础设施成为云厂商的核心竞争力之一。7月1日,腾讯宣布其自研星脉高性能计算网络全面升级,升级后的星脉网络2.0搭载自研的网络设备与AI算力网卡,支持超10万卡大规模组网,网络通信效......

采用Sora同款架构,混元文生图大模型宣布开源

5月14日,腾讯宣布其旗下混元文生图大模型全面升级,并对外开源。据了解,这是首个中文原生的类Sora架构开源模型,填补了国产大模型在文生图先进架构上的空白。目前,主流的文生图开源生态基本围绕英文建设,......

政校企院共建,四川省人工智能学院揭牌成立

4月11日,由政校企院四方共建的“四川省人工智能学院”正式获批成立,揭牌仪式在电子科技大学举行。据介绍,四川省人工智能学院采取“1+N”政校企院共建模式,以电子科技大学为牵头单位,四川省教育厅、经济和......

腾讯汤道生:行业需要可控可追溯可修正的大模型

“虽然大家对通用大模型期待很高,但它不一定是满足行业场景需求的最优解。”6月19日,腾讯云在国家科技传播中心召开行业大模型及智能应用技术峰会。会上,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道......

腾讯高级执行副总裁:腾讯正研发类ChatGPT聊天机器人

据澎湃新闻报道,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示,腾讯正在研发类ChatGPT聊天机器人。对于腾讯的聊天机器人是集成到QQ、微信,还是通过腾讯云向B端用户服务,汤道生说:“都......

腾讯联合耕智:把数字化送进“大棚”

设施农业资源利用率、劳动生产率和土地产出率高,对节约我国有限的耕地、保障城乡居民“菜篮子”和提升消费品质意义重大。党的二十大报告提到,要树立大食物观,发展设施农业,构建多元化食物供给体系。设施农业面临......

“大人,时代变了”,联通、腾讯合营获无条件批准

据国家市场监管总局官网10月27日发布的《2022年10月17日-10月23日无条件批准经营者集中案件列表》显示,联通创新创业投资有限公司与深圳市腾讯产业创投有限公司新设合营企业案获无条件批准,审结时......