发布时间:2023-05-10 17:11 原文链接: 张峥:高质量文字工作者受AI影响不会太大

·从人才的培养和市场的储备来看,大部分人才处在比较容易被取代的象限,这是需要引起警惕的。然后我们的时间也不见得有很多,估计大概四五年内会有影响。

·海明威有个非常知名的习惯,一天只写500个字,这500个字是千锤百炼出来的。ChatGPT现在是抓不到这个修改过程的语料的,它看到的是整体,但它不知道这修改了多少遍又是怎么去调整的。

 

“AI会有自主意识吗?可以想象一个套娃,里面的套娃在做模拟的行动,但它需要另外一个外面的套娃告诉它做得对不对,我们东方的哲学一直在说的所谓‘观照’,其实就是这个事情。自我意识不是一个名字,而是一套动作,是这样一套组合的动作,技术上AI完全可以做到。”近日,亚马逊云科技资深首席科学家、亚马逊云科技上海人工智能研究院院长张峥在复旦大学举办的“中国与世界”系列讲座中谈道。

张峥本科毕业于复旦大学电子工程系,后获得美国伊利诺伊大学厄巴纳-香槟分校(UIUC)博士学位。他曾任上海纽约大学计算机终身教授,研究领域为深度学习、人工智能、高性能大容量计算和存储系统,多次获国际学术会议论文奖,是开源深度学习平台MXNet和DGL的共同创始人和顾问。

在讲座中,张峥梳理了ChatGPT的发展历史,重点讲解了在这个过程中出现的关键技术进步,回应了AI是否会有自主意识以及生成式AI的影响等问题。

以下为澎湃科技(www.thepaper.cn)整理的演讲内容,有删节:

其实AI影响大家的生活已经很多年了。像搜索引擎会通过你的个人喜好,通过你的网络浏览历史等决定推送的链接,这本身就是一个AI引擎,其他的还包括自动驾驶、支付宝刷脸支付、工厂里的瑕疵零件识别等。

我先讲一下ChatGPT的发展历史。

在此之前,我们要思考一个问题,整个人类文明的科技发展史是怎么演变的?我最近听到一个播客很有意思,它说假如把整个人类25万年的历史看作一本1000页的书,每一页是250年。那么,大概有24万年,人类历史好像什么事也没有,然后在最后1万年忽然有了各种进展,最重要的一些技术发明是在最后一年。在书的最后一页,技术发展的速度越来越快。如果这样计算,ChatGPT就占这本书最后一页的一个字,甚至是一两个笔画。

从2018年GPT出现开始到今年3月左右,我把它大致分为三个阶段。

第一个阶段是GPT出现到GPT-2,它的训练的方法很简单。比如我拿了一本书,希望语言模型永远去预测一个词的下一个词,它把书里的很多句子统计出一个概率分布。它用了800万网页训练,这个数据量大约是40GB,我手里的这个手机容量现在一般是256GB,所以GPT-2的语料其实不是特别大,但GPT-2已经展现出蛮惊人的效果。

比较大的突破是在GPT-3,大概是1750亿参数量。这是一个很大的跃升,它的数据量是45个TB(Tetabytes,1TB=1024MB),某种程度上等于它读了4500万本书。我属于读书比较多的人,假设我退休了,一年大概能精读20本,50年最多就是1000本,那它是几千倍于我,而且在几个月里完成。它的规模达到这样的程度,能把全世界的知识都“吃下去”。我们不太能想象它的概率分布,它的稠密程度,它的能力。还有一个重要的方面,在它训练的语料中有大概10%是代码。代码是结构化的,同时还附有码农写的说明,我觉得代码的学习让它体验出逻辑,这在后面会发挥威力。

第二个阶段出现第一个转折点——上下文学习出现了,即设计了场景。上下文的学习方式被OpenAI的科学家用到语言模型的训练中。它是怎么做的?比如我给一些例子,这些例子是有上下文的,然后让机器去捕捉和预测下一个样本应该是什么。

一个最简单的例子是,我给一句中文给一句英文,再给一句中文给一句英文,然后再给一句中文,这个模型会吐出英文来,它不需要专门为翻译来训练,因为它学过看过很多这样的样品,给了示例它就能够读出下面的句子是哪个。

最后一个阶段,也就是我们现在面对的阶段,一个大的突破是InstructGPT。他们的这个想法也是我一直觉得很惊艳的,也就是说既然可以做上下文的训练,那么我现在可以告诉模型一件事是怎么做的,给很多个例子让模型去学。

一开始它其实跟AlphaGo很像,AlphaGo最初从大量职业棋手的棋局中学习人类怎么下,然后训练模型来模拟棋手的行为。在模型训练之后,它开始生成,棋局可以知道某一步棋的好坏,但其他内容好坏的判断就需要人类来标注。它的方式是,比如产生4个不同的样本,然后让一些人打分。一开始有监督的学习5万条,然后继续生成,按照之前的样本判断生成内容的好坏,再继续调整算法。

这里涌现出两个重要的概念,第一个是所谓的“世界模型”(world model),也可以简单理解为世界观,还有一个是对齐问题(要求AI系统的目标和人类的价值观与意图保持一致),可以简单看成价值观。对齐有两个后果,一个好的一个坏的,好的是把不符合核心价值观的内容过滤掉,通过打分也好,让它给你建议也好,都体现出它的价值观。问题在于,任何文化要发展都需要一些突破当前价值体系之外的内容,一旦固定下来,这个文明可能就不再进步。我们看康德的道德律,在此之前中国也有各种道德观,一直随着时代变化。假设技术来代你做决定的话,这个文明有可能停滞不动。

其实现在的机器在价值观、世界观上有跟人类的对齐能力。不过这也可能影响到将来它的使用,不同文化或已经有的文明之间的冲突可能会被放大,这也是我个人比较担心的地方。

这里插入一个问题,也是一个比较古老的哲学问题。有人认为ChatGPT是没有自我意识的,我觉得这个说法是不对的。在机器学习里有一个很重要的方法,就是增强学习,我们所说的打分就是这种方法。简单地说,就是我做一件事然后判断它的后果,根据后果来调整行为,比如扫地机器人,每个家庭空间都是不一样的,它一定要通过跟物理环境的互动来调整自己的行为。而ChatGPT现在已经有一个世界模型,它完全可以在这个想象的世界模型里去做动作,这个跟我们人类的活动没有本质区别。

AI会有自主意识吗?可以想象一个套娃,里面的套娃在做模拟的行动,但它需要另外一个外面的套娃告诉它做得对不对,我们东方的哲学一直在说的所谓“观照”,其实就是这个事情。自我意识不是一个名字,而是一套动作,是这样一套组合的动作,技术上AI完全可以做到。

总结一下,ChatGPT是一个用文字来组织的世界模型,它有巨量的知识。它只“过一遍脑”,也就是说给一个输入它立刻反应,这个很重要,这也是进化给人类的一个优化,比如碰到火就立刻缩回来,我觉得大模型基本可以做到。然后它可以外挂,像必应的话外挂搜索引擎,还可以外挂各种各样的项目。它还可以做一个创造者,我们可以把它接到Midjourney和Stable Diffusion里,用文字生成一段图像或视频。它现在没有抽象计算的能力,比如我现在要做一个加法算数的话,它不是像想象的用一个计算器的方法来做,而是记下来很多实例,它的很多计算是完全在记忆的基础上完成的,这是它的一个软肋,我觉得不做一些比较彻底的修改,它还是做不到的。

最后说一下生成式AI对内容生产的影响,它肯定会给内容生产带来很大冲击,我把内容分以两个指标划分象限,一个是生产的内容需要多少创造力(creative),另一个是跟真实(factual)相关的程度。象限左下角是受到冲击最大的,比如客服这一行业我觉得之后会受到很大影响。

总的来说,我认为AI现在还只能做助手,而且会持续比较长时间。但是现实是,从人才的培养和市场的储备来看,大部分人才处在比较容易被取代的象限,这是需要引起警惕的。然后我们的时间也不见得有很多,估计大概四五年内会有影响。我们必须意识到,一些核心的能力现在已经被重新划线,你和AI都能做的,AI比你做得更快更好,这基本上是一个事实。

但好消息是,高质量文字工作者不会受到太大影响,为什么?举个简单例子,海明威有个非常知名的习惯,一天只写500个字,这500个字是千锤百炼出来的。ChatGPT现在是抓不到这个修改过程的语料的,它看到的是整体,但它不知道这修改了多少遍又是怎么去调整的。一个故事的延展有它的时间限制,我们最后把它变成一个文学作品折叠起来,把后面的东西放到前面,前面放到后面,有些东西隐没掉,这部分是ChatGPT现在学不到的。不过这不代表它永远学不到,比如你在微软Office的Word里面写文章,靠它来修改,有这些修改,它可以反过来学习到这个修改过程,除非你完全打腹稿。

现阶段为什么ChatGPT“油嘴滑舌”却又没有什么文采?原因就是它的看齐成本,它看到的是折叠后的结果,所以它的概率统计模型统计的内容不对。语言模型只能预测下一个词,它的世界模型也是这么看的,一个物理实验确实是这样,但是文学作品不一样。假设你真的有创造能力,那其实是一个好消息,因为市场上会泛滥出很多ChatGPT的文章。

我再从艺术创造的角度讲一个例子,大概在去年10月,我们跟一个做内容生成的初创公司的人聊天。我们当时做了一个实验,即随便说两个不相关的词,然后我们4个人在不看机器怎么生成结果的情况下先自己画一个图。最后我们发现,它的表现特别好,但关于画的一个细节,怎么提示机器都做不出来。就是我们能想到机器人也能想到的,它肯定比你做得更好,但假如机器想不到,你怎么去提示它都想不出来,因为它训练的数据还是比较局限的。

我后来去一些艺术展的时候经常会想,这个作品AI能不能做。大部分情况,从动机角度来说,它都是做不到的。AI很难有主动做一个作品的动机,但一些技术手段是完全可以用AI来做。所以从写作和画画这两个例子来看,AI现在还是只能做助手,而且我觉得这个时间会比较长。

另一个层面,ChatGPT可以问出很多问题,但这里的关键不是“ask questions”(问问题)而是“ask good questions”(问好问题),这点非常重要,你要设立 “hypothesis”(假说),而设立一个好的假说是非常困难的。在物理的发展史中,在牛顿之前,当观测到星空轨迹跟我们想象的不一样时,各种很聪明的人对公式做了各种修改,直到牛顿重新确立假说。


相关文章

谷歌AlphaFold3重磅问世,预测精准度提高100%,AI能帮助治疗癌症和免疫病

刚刚,顶级科学期刊英国《Nature》(自然)杂志发表了一份重磅、突破性研究论文。北京时间5月8日23点,谷歌DeepMind和其英国子公司IsomorphicLabs联合团队在《自然》杂志上发表一份......

谷歌AlphaFold3重磅问世,预测精准度提高100%,AI能帮助治疗癌症和免疫病

刚刚,顶级科学期刊英国《Nature》(自然)杂志发表了一份重磅、突破性研究论文。北京时间5月8日23点,谷歌DeepMind和其英国子公司IsomorphicLabs联合团队在《自然》杂志上发表一份......

当ChatGPT遇上CRISPR

在探索CRISPR基因编辑系统的过程中,研究人员从温泉、泥炭沼泽、粪便甚至酸奶中搜寻各种微生物。现在,由于生成式人工智能的进步,他们可能只需按一下按钮就能设计出这些系统。据《自然》报道,日前,研究人员......

当ChatGPT遇上CRISPR

在探索CRISPR基因编辑系统的过程中,研究人员从温泉、泥炭沼泽、粪便甚至酸奶中搜寻各种微生物。现在,由于生成式人工智能的进步,他们可能只需按一下按钮就能设计出这些系统。据《自然》报道,日前,研究人员......

新锐科幻作家陈楸帆科普报告:我们如何想象AI

科学的创新离不开想象力,如今已成为现实的科技也曾来自于当初的科幻。当人工智能(Artificialintelligence,AI)已经从科幻变成现实,并走入寻常人的生活,甚至屡屡成为霸屏热搜的当下,我......

新锐科幻作家陈楸帆科普报告:我们如何想象AI

科学的创新离不开想象力,如今已成为现实的科技也曾来自于当初的科幻。当人工智能(Artificialintelligence,AI)已经从科幻变成现实,并走入寻常人的生活,甚至屡屡成为霸屏热搜的当下,我......

多管齐下让人工智能更节能

世界经济论坛官网近日报道指出,为让人工智能(AI)发挥其变革潜力、提高生产力水平及社会福祉,人类必须确保它可持续地发展。这一愿景面临的核心难题在于,随着算力和性能的不断提升,能耗也在快速增长。AI生态......

多管齐下让人工智能更节能

世界经济论坛官网近日报道指出,为让人工智能(AI)发挥其变革潜力、提高生产力水平及社会福祉,人类必须确保它可持续地发展。这一愿景面临的核心难题在于,随着算力和性能的不断提升,能耗也在快速增长。AI生态......

家政机器人迎来高光时刻

图片来源:《麻省理工科技评论》谁不想要一个可完全承担家务的机器人呢?这也是人们对机器人技术发展的一大梦想。虽然机器人专家已经能够让机器人在实验室做一些像跑酷这样令人印象深刻的事情,但这都是在严格控制的......

家政机器人迎来高光时刻

图片来源:《麻省理工科技评论》谁不想要一个可完全承担家务的机器人呢?这也是人们对机器人技术发展的一大梦想。虽然机器人专家已经能够让机器人在实验室做一些像跑酷这样令人印象深刻的事情,但这都是在严格控制的......