近日,在美国圣迭戈市举行的计算机体系结构重要国际会议ASPLOS上,由鹏城实验室智能计算研究部、清华大学计算机系教授陈文光团队自主研发的国产千卡集群训练优化技术AdaPipe正式发布。
近年来,大规模语言模型在对话、问答和文本总结等多种应用场景中展现出卓越性能,受到了学术界和工业界的广泛关注。然而,随着大规模语言模型逐渐朝着更多的参数量和更长的文本进行演化,对计算设备的存储和处理能力也提出了更高要求。
当前,传统的流水线并行训练方法在处理百、千亿参数的模型时会产生存储和计算负载不均衡的现象,直接影响了资源利用率和整体训练效率;同时,由于现有国产算力卡存在高速内存容量和通信能力不足的情况,使得这一问题显得更加突出。
为解决上述问题,陈文光团队开发了AdaPipe技术,该技术根据具体的模型和硬件参数,通过细化重计算的粒度来优化重计算策略,并考虑到训练各阶段计算量的差异,进一步对重计算和流水线切分策略进行优化。该技术不仅将存储资源的利用率最大化,还确保不同计算节点上的计算负载得以平衡分配,训练效率显著提升了。
该研究显示,AdaPipe支持GPU、NPU主流加速卡,该技术被应用在“鹏城云脑II”的国产千卡集群上训练多种模型(如Llama-2,GPT 3等)时,实现了20%以上的性能提升。此外,AdaPipe在“鹏城·脑海”通用大模型(200B)4K窗口3456卡的实际训练中,取得了10%以上的效率提升。这些案例将为未来万卡国产集群上的优化训练提供技术储备和经验参考。
上述技术的研发得到国家自然科学基金和鹏城实验室的支持和资助。
相关论文信息:https://doi.org/10.1145/3620666.3651359
一项新研究发现,虽然先进的人工智能(AI)模型在专业医学考试中得分很高,但在医生最重要的任务之一——与患者交谈以收集相关医疗信息并提供准确诊断方面,仍然表现不佳。1月2日,相关研究成果发表于《自然-医......
近日,在2024数字科技生态大会上,国内单台比特数最多的超导量子计算机天衍-504正式发布。国内单台比特数最多的超导量子计算机天衍-504。中电信量子集团供图据悉,天衍-504超导量子计算机是中电信量......
10月24日,2024中国计算机大会(CNCC2024)在浙江东阳横店开幕,吸引了一万多名计算相关领域学术、教育、企业界人士参会。围绕“发展新质生产力,计算引领未来”主题,800多位国内外知名专家学者......
尽管量子计算机领域的研究进展突飞猛进,但量子计算机的“性情”仍不稳定,容易出错,尚无法投入实际应用。为此,包括谷歌和IBM等在内的众多公司竞相开发量子纠错技术,旨在为最终实现稳定可靠的量子计算系统奠定......
9月16日,信息管理与数学学院、计算机与人工智能学院揭牌仪式举行。中国科学院计算所所长陈熙霖教授、江西师范大学原校长梅国平教授、鹏城实验室副主任石光明教授、南昌大学副校长杜建强教授、华东交通大学副校长......
研究人员开发了一种真菌“生物混合机器人”。图片来源:美国康奈尔大学科技日报北京9月1日电(记者张佳欣)美国康奈尔大学研究人员成功开发出一种由真菌和计算机组成的“生物混合机器人”。这种机器人能够将真菌的......
为响应党的二十大和二十届二中、三中全会精神,贯彻党中央、国务院的决策部署,国家发展改革委近日发布了《推动大规模设备更新和消费品以旧换新行动方案》(国发〔2024〕7号),明确提出统筹安排3000亿元左......
研究背景随着计算生物学的快速发展,我们正处于一个由数据驱动的生物信息学新时代。蛋白质,作为生命活动的执行者,其结构和功能预测一直是科学研究的核心问题。近年来,深度学习技术的突破性进展,尤其是蛋白质语言......
随着《国家标准化发展纲要》和《推动大规模设备更新和消费品以旧换新行动方案》的深入实施,市场监管总局近日发布了《2024年度实施企业标准“领跑者”重点领域》公告。公告是依据《市场监管总局等八部门关于实施......
“在各方共同努力下,推动大规模设备更新和消费品以旧换新工作取得良好开局。”国家发展改革委政策研究室副主任、新闻发言人李超在今日召开的新闻发布会上透露,“今年1—5月份,设备工器具购置投资同比增长17.......