2021年2月,我们发布了“文生图”的人工智能系统DALL·E,该系统可以根据文字创作生成各种风格的逼真图像。从那以后,我们就开始思考,这是一条学习智能的好路径吗?继续加大模型的规模,还会发生什么呢?

演讲现场 主办方供图
压缩一切 掌握信息
实际上,在DALL·E发布之前,我们就在iGPT中探索了无条件的自回归图像Transformer模型,我们发现将一切信息压缩起来,可以学到很好的表征。
比如,iGPT可以被视作一个图像生成或理解模型,我们将图像压缩成一系列“马赛克”色块,从而得到了一些可以通过类似于GPT的自回归方法处理的序列。这项研究的亮点在于,我们可以通过压缩后的图像,学习到潜在的结构信息。
而在与DALL·E同期发布的CLIP(文生图模型)中,我们通过对比损失,尝试学习成对的文本-图像数据集之间的共有信息,其计算效率比iGPT高出几个数量级。因此我们认为,在提取智能的过程中,与压缩所有像素的信息相比,使用自然语言引导视觉世界中的学习,可以大大提升计算效率。
CLIP模型包含一个图像编码器和一个文本编码器,它的出现标志着重大的范式转变——我们不再需要人工标注的标签来为某个域的数据训练一个优秀的分类器,我们可以利用互联网上海量的廉价文本来训练一个模型作为所有数据域上的优秀分类器。
不难发现,图像表示学习发展的早期,分类模型仅仅学习到手动标注的标签和视觉世界之间的交集;CLIP的诞生标志着我们可以学习互联网上的自然语言和视觉世界之间的交集;紧接着,图像描述器也成为了可扩展的视觉学习器。
为此,我们训练了一个图像编码器感知模型,并利用视觉世界中的知识重建自然语言,这种根据图像预测文本的方法与语言模型十分类似。
那么,随着算力预算的不断升级,图像表示学习最终形态会是怎样?图像表示学习的目标函数在不断改变,我们学习图像的方式也在改变。随着我们算力的增加,似乎事情变得越来越简单。
iGPT的成功说明,尽管效率不高,但大规模生成模型会学习数据的底层结构,因此最终可以得到很好的图像表征。
同样的情况是否也适用于“图生文”的模型呢?答案是肯定的。
在论文《你的扩散模型实际上是一个零样本分类器》(Your Diffusion Model is Secretly a Zero-Shot Classifier)中,作者指出,一个预训练好的“文生图”模型可以被用做类似于CLIP的零样本分类器。给定图像和候选的文本描述,我们可以使用扩散模型计算文本对匹配的损失,只不过衡量图文数据相似度的函数更加复杂。
这样一来,我们就可以从以图像为条件预测标签的训练范式转向以文本为条件,预测图像的训练范式。但是,这样做的计算效率仍然不能保证。
未曾训练 也能实现
通过DALL-E3项目,我们发现,当用于训练的文本更具描述性时,即使文本较短,训练“文生图”模型的效率也会更高。这启发我们,即使在推理时无法使用具有描述性的文本,也可以使用具有较强描述性的文本作为训练的框架,从而得到更好的无条件模型。
假设要为图像训练一个“文生图”模型,图像中没有任何的不确定性,我们可以根据文本描述读出像素质,这里不需要使用深度学习模型;如果我们向图像中加入少量噪声,去掉一些图像表面的细节和纹理,就引入了一些不确定性,模型需要学习的东西也不多。保留下来的图像可以被极具描述能力的文本来表示;如果向图中加入大量的噪声,只需要很短的描述就可以表示保留下的图像。当通过扩散模型向图像加噪至图像成为纯噪声,就没有文本可以描述剩下的图像,此时任何图像都有可能。
我们认为,利用极具描述性的文本训练,有助于在小规模模型上补充感知相关的先验。在参数量较大,即模型规模较大时,模型可以学习到语言无法描述的知识。当我们拥有的算力越大,就可以使用越少的补充语言描述。
在DALL·E3中,训练范式从“给定图像重建文本”转向了“给定极具描述性的语言重建图像”。当然,此时的计算效率可能并不会提升。最终,如果我们扩展一个极具描述性的文本补充下训练的网络,其无条件建模的能力也会增加。
起初,我们并没有用太多的文本,我们只能预测少量的信息从而构建图像分类器。接着,我们通过类似于CLIP或图像描述器的方式使用了较多的文本。后来,我们发现可以像在DALL·E3和Sora中一样使用极具描述性的文本来训练生成式模型。
随着模型规模的扩大,语言可以作为一种训练的框架,在推理时可以被丢弃,因为这时视觉有时比语言更具通用性。
视觉上下文学习似乎也能赋予DALL·E1一些“生命”迹象。例如,给出图像的上半部分,让模型绘制出图像的下半部分。当上半部分变化时,绘制出的下半部分也会变化,而模型从没有在这些任务上训练过。这可能是实现通往所有类型应用的一条可行路径。
未来,我们可以向模型输入一张图像,要求其生成满足我们任意要求的视频。
(作者系Sora团队负责人,本报记者沈春蕾根据其在2024智源大会上的演讲整理)
近日,我所仿生催化合成研究组(211组)陈庆安研究员团队在卤代有机污染物的再利用方面取得新进展,发展了一种溴化物催化的氯转移反应,该反应能够利用卤代有机污染物作为卤源,从而实现不同卤代有机污染物的再利......
6月14日,第18届北京发明创新大赛举办了颁奖会,这场为期数月的赛事迎来落幕。据悉,本届大赛报名项目2158项,评选出获奖项目503项,其中特等奖1项,金奖29项,银奖60项,铜奖140项,优秀奖27......
6月15日,在第八届功能泌尿学术年会暨吴阶平医学基金会泌尿外科青年医师专家委员会成立大会上,一款国际先进的居家便携式尿失禁监测设备亮相,引发了广泛关注。该设备可开展智能化诊断和疾病预警,数字疗法、远程......
近日,美国化学会新闻周刊(ACSNewsServiceWeeklyPressPac)以《仿生四足机器人“嗅出”危险环境的有害气体》为题,报道了暨南大学环境与气候学院副研究员胡斌及其合作团队的最新研究成......
近日,暨南大学环境与气候学院教授王伯光团队报道了珠三角地区不同大气环境下过氧乙酰硝酸酯(PAN)光化学的复杂性及其控制策略。相关成果发表于《Npj气候与大气科学》(npjClimateandAtmos......
近日,华南师范大学量子物质研究院科研团队在量子多体理论研究领域取得重要进展。他们与合作者提出并验证了一种算符期望的全新的计算方法,并应用于热中子物质结构因子的研究。相关成果发表于《物理评论快报》。“从......
北京师范大学本科生吴昊(现为北京大学博士研究生)读大四期间在北京师范大学教授苑海波指导下,与合作者系统性地搜寻了银河系内的超致密星团,并成功发现一个候选体。近日,相关研究成果发表于《天文学杂志》(As......
2024年6月16日,全球发明大会中国区(ICC)北京赛区密云分赛场在密云区青少年宫成功举办,标志着又一年度青少年科技创新的盛会落下帷幕。本次赛事由中国友好和平发展基金会主办、中科科技培训中心与北京市......
“每年引进100名左右自然科学领域优秀博士进站,每人资助40万元。”近日,湖北省人社厅联合省委组织部、省教育厅、省科技厅、省财政厅等七部门印发《关于加强新时代博士后工作的若干措施》(以下简称《若干措施......
近日,华中农业大学农业微生物资源发掘与利用全国重点实验室、湖北洪山实验室、动物医学院申邦团队在人兽共患寄生原虫——弓形虫的营养代谢机制研究方面取得重要进展。该团队发现定位于弓形虫顶质体的一类全新的丙酮......