南开新闻网讯(记者 高雨桐)2024年伊始,Open AI(美国开放人工智能研究中心)公司发布首个AI(人工智能)文字生成视频大模型Sora,通过计算机视觉技术模拟现实世界的动态变化,可以一次生成60秒流畅逼真的视频,被视为继ChatGPT之后人工智能技术的又一重大突破。但从实测Sora的一些“翻车”视频中可以看出,AI仍然存在着无法快速、准确“理解”物理世界的困难。
近日,南开大学、南开国际先进研究院(深圳福田)教授程明明团队一项国际联合研究成果MDT(Masked Diffusion Transformer),相比Sora核心组件DiT(Difffusion Transfomer)训练速度提升10倍以上,再次刷新SoTA(最佳)图像生成质量和学习速度,实现了ImageNet benchmark(大型图像分类数据集性能测试)上1.58的FID score(图片质量的度量),超过Meta、Nvidia等知名公司提出的模型。研究团队也已将MDT源代码全部开放。
以Sora核心组件之一DiT为代表的扩散模型,可以实现“无中生有”得到一张高质量图像,是近年来人工智能技术最大亮点之一。但DiT往往难以高效地学习图像中物体各部分之间的语义关系,这一局限性导致了训练过程的低收敛效率。同时,更大的模型规模和数据规模也会消耗大量的算力能耗,导致训练成本飙升。
“以DiT生成一张小狗图像举例,它在第5万次训练步骤时已经学会生成狗的毛发纹理,然后在第20万次训练步骤时才学会生成狗的一只眼睛和嘴巴,却漏生成了另一只眼睛。即使在第30万次训练步骤时,DiT生成的狗的两只耳朵的相对位置也不是非常准确。”程明明说,“简单来说,就像做阅读理解时忽视了上下文的语义关系,导致生成图像中经常出现偏差需要反复修正,大幅增加了训练成本。”

图1:DiT在第30万次训练步骤中仍不能准确生成图像
如何降低训练成本、提升训练效率?南开大学、南开国际先进研究院(深圳福田)教授程明明、博士研究生高尚华,以及冬海集团人工智能实验室(Sea AI Lab)博士研究生周攀和新加坡工程院院士、IEEE/ACM Fellow、昆仑万维2050研究院院长颜水成共同提出了解决方法。通过在扩散训练过程中引入上下文表征学习,能够利用图像物体的上下文信息,重建不完整输入图像的完整信息,从而学习图像中语义部分之间的关联关系,提升图像生成的质量和学习速度。成果相关论文"Masked Diffusion Transformer is a Strong Image Synthesizer"(成果大幅提升扩散生成模型的训练速度和生成质量)已在计算机视觉顶级会议ICCV 2023(计算机视觉国际大会)发表。

图2:DiT-S/2基线、MDT-S/2和MDTv2-S/2在不同训练步骤、训练时间下的FID性能
近日,研究团队又将MDT升级到v2版本,在MDTv2中引入了一个更为高效的宏观网络结构,进一步优化了学习过程,同时通过采用更快的Adan优化器、扩大掩码比率等更优的训练策略来进一步加速模型的训练过程。实验结果证明,通过视觉表征学习增强对物理世界的语义理解,能够提升生成模型对物理世界的模拟效果。
程明明说,“希望我们的工作能够激发更多关于统一表征学习和生成学习的工作,提升AI大模型的‘智慧’水平,解决更多场景的现实问题。”
论文地址:https://arxiv.org/abs/2303.14389
(原标题:南开团队开源MDTv2!可让Sora核心组件DiT训练提速10多倍)
为响应国家低空经济战略需求,优化学科布局,近日,经南开大学学位评定委员会十届七次会议审议通过,学校在智能科学与技术一级学科下新增“低空技术与工程”二级学科博士学位授权点。“低空技术与工程”作为新兴前沿......
日前,南开大学正式启动“新时代优秀青年人才后备计划”(以下简称“优才后备计划”),打破以往分段式培养的局限性,升级贯通培养体系。该计划采用“3+1+X”学制,入选学生将获得全程导师“领航”。以发展兴趣......
4月9日,南开大学“感念大师”系列奖项——姜立夫、陈省身奖教金、奖学金颁奖典礼在八里台校区省身楼多功能厅举行。南开大学原校长侯自新,中国科学院院士、陈省身数学研究所教授龙以明、张伟平,南开大学副校长白......
我国科学家研究发现,植物叶片对大气微塑料的吸收与积累现象在环境中广泛存在,叶片吸收大气微塑料是微塑料进入食物链和人体的重要途径,全面认识微塑料的环境行为,对于此类新污染物的管控非常重要。这一科研成果由......
2024年是南开大学建校105周年,也是南开大学图书馆建馆105周年。为更好地展示南开大学图书馆形象,营造书香校园浓厚氛围,南开大学图书馆自2024年3月开启“南开大学图书馆”徽标设计征集活动,广大师......
12月6日,由云南省人民政府与中国科学技术协会共同主办的2024腾冲科学家论坛在云南省腾冲市开幕。开幕式上,南开大学、北京大学、清华大学与云南省人民政府签署领办西南联合研究生院相关学科协议,推动教育科......
11月3日,美国俄亥俄州立大学名誉教授、2023年诺贝尔物理学奖获得者皮埃尔·阿戈斯蒂尼从南开大学校长陈雨露手中接过聘书,成为该校的名誉教授。他将在南开大学设立国际联合研究中心。受聘仪式现场宗琪琪摄2......
10月28日是20世纪最伟大的数学家之一、“整体微分几何之父”、南开数学研究所创建人陈省身先生诞辰113周年纪念日。今天,国际著名数学家麻小南正式受聘为南开大学讲席教授。他将于今年11月在陈省身数学研......
中新网天津10月11日电(孙玲玲刘峰奇)近日,南开大学生命科学学院喻其林教授带领学生创业团队“颗硕一号”成功研发出大豆增产抗逆人工微生物菌剂。据悉,该创新菌剂能够显著提高大豆对盐碱地的适应性和抗逆性,......
OpenAI再走一员大将。当地时间10月4日,人工智能(AI)巨头OpenAI的文生视频大模型Sora团队研发负责人蒂姆·布鲁克斯(TimBrooks)宣布离职,加入谷歌DeepMind。TimBro......