发布时间:2023-08-30 10:24 原文链接: 百度CTO王海峰:通用人工智能曙光已现

  “过去一段时间,以大语言模型为代表的人工智能技术取得了令人震撼的成绩,而这些已经让我们看到了通用人工智能的曙光。”

  近日,在由深度学习技术及应用国家工程研究中心主办的WAVE SUMMIT深度学习开发者大会上,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰首次发表他对于通用人工智能的理解。他还表示,希望与所有开发者共建开源开放的社区,共赴通用人工智能的星辰大海。

image.png

王海峰在WAVE SUMMIT深度学习开发者大会上。图片来源:百度公司

  体现人工智能核心能力的四个关键词

  在一众与人工智能相关的词汇中,王海峰选出了四个词:理解、生成、逻辑和记忆。在他看来,这四个词所代表的含义,既是人工智能最核心的能力,也是通用人工智能系统应具备的最基本的能力。

  “比如大语言模型要创作一篇内容,它需要‘理解’创作主题,理清创作‘逻辑’,在‘记忆’中搜寻素材,并将对素材的理解融会贯通,最后‘生成’一篇合格的文稿。”王海峰举例说,编程、解题、做规划等也同样如此:“如果一个人工智能系统具备了很强的理解、生成、逻辑和记忆能力,它就可以完成许多不同的任务。”

  显然,理解、生成、逻辑、记忆这四个关键词代表的含义,也正是贯穿于人类思考过程中的能力。王海峰认为,如今,大语言模型已经初步具备了这几个方面的能力,而随着这些能力越来越强,“就会让我们更快地走向通用人工智能”。

  大模型的代码能力,或许能让人更真切地看到它沿着迈向通用人工智能之路前进的态势。

  王海峰说,语言是人类沟通交流的工具,同时也是思维的载体。但计算机编程语言不同于含义丰富的自然语言,它们有着严格的语法、行文格式,而且每一行代码都只能唯一被解释、被执行。因此,人类程序员们编写代码的过程,其实是一个将人的思维表达为编程语言的过程,进而就可以执行,也可以交互了。

  当大语言模型也能又快又好地“写”代码的时候,事情就开始变得不简单了。

  “我上学的时候,一位外语老师曾经跟我说,如果你能用外语进行思考了,那就说明你已经把这门外语学通了。”王海峰说,所以,当大语言模型能够“写”代码了,也意味着它能够将人类自然语言表达的需求用代码写出来。

  王海峰说出了他的看法:“这不仅是为人们的软件开发提供帮助,更是架起了机器‘思考’和‘执行’之间的桥梁——这对通用人工智能的发展有着非常重要的意义。”

  “知识就是力量”,对AI也适用

  而当人们看到一些大语言模型产品“时而神时而鬼”的发挥后,便可知晓,人工智能对“理解、生成、逻辑、记忆”这些能力的修炼还不到家。

  人工智能如何不断地获得并增强它在这些方面的能力?王海峰的答案是“知识增强大语言模型”。

  今年3月,百度发布了知识增强大语言模型“文心一言”。5个月以来,文心一言的能力有了长足进步。今年6月在公开测试集上进行的基础模型少样本(Few-Shot)评测显示,最新版本的文心大模型3.5在多个测试集的得分超过ChatGPT。

  文心一言的进步速度超出预期。这背后,有许多值得提及的要素,比如庞大数量的优质数据、多种策略的优化、对基础模型进行“长文建模”、多任务自适应的有监督精调、多层次多粒度奖励模型的强化学习、文心和飞桨的联合优化……等等,不一而足。但在王海峰看来,重要的是,文心一言不止从海量数据中学习,也从庞大的知识图谱中汲取养分。

  顾名思义,作为“知识增强”大语言模型,文心一言离不开“知识”的学习和强化。“知识就是力量”这句话,对人工智能也适用。

  王海峰介绍说,百度拥有花费10余年时间构建的、超过5500亿知识的知识图谱。

  在训练过程中,文心大模型如何用好这个知识图谱?王海峰回答说,有两种方式:知识内化和知识外用。知识内化即在训练过程中,通过基于语义单元的学习以及用知识图谱构造训练数据,将这些知识内化到大语言模型中;知识外用则是在知识推理、提示构建等环节直接使用知识图谱。

  经过了庞大知识图谱和海量数据的“洗礼”,大模型在推理部署阶段只要少量的精调、少量的场景适配,就可以对接给千行百业,这将帮助其大大降低应用门槛。

  “文心加飞桨,翩然赴星河”

  在WAVE SUMMIT这个面向深度学习开发者的盛会上,王海峰对通用人工智能的憧憬,更是向数以万计开发者寻求的一种共鸣。

  王海峰说,在百度开发的飞桨产业级深度学习开源开放平台上,已累计聚集了800万开发者,有22万家企业使用飞桨平台,构建了80万个模型。

  早期,开发者们青睐TensorFlow、Pytorch等国际知名的深度学习框架,但随着飞桨这一国产平台的逐步完善,开发套件、工具组件、基础模型库等逐步完备,特别是过去几年里,基于飞桨百度着力打造了文心大模型家族,越来越多的开发者转而拥抱飞桨。2019年,飞桨平台只有190万开发者,4年的时间里,这一数字连续翻番。

  “800万开发者、22万家企业、80万个模型,这些数字不止见证了成长,我相信更为未来打下了坚实的基础。”王海峰说,百度希望继续与所有开发者和企业伙伴共建、共创,共同推动人工智能赋能千行百业,惠及千家万户。

  “飞桨”一词,取自宋代文豪朱熹《即事有怀寄彦辅仲宗二兄》中的“闻说双飞桨,翩然下广津”。寓意在“飞桨”助力下,中国人工智能事业走得更快、更远。

  飞桨开发者共同聚集的人工智能学习实训社区,原名为AI Studio,现在百度给它取了一个中文名“星河社区”。数百万开发者在星河社区学习、实训、提升AI能力并着力将其落地。

  在WAVE SUMMIT深度学习开发者大会上,王海峰把“闻说双飞桨,翩然下广津”这联诗改为“文心加飞桨,翩然赴星河”:“希望我们和所有的开发者一起。在飞桨和文心的加持下,共建星河社区,共赴通用人工智能的星辰大海。”

相关文章

清华大学成立人工智能学院姚期智任院长

4月27日,在清华大学113周年校庆到来之际,清华大学成立人工智能学院,聚焦“人工智能核心基础理论与架构”和“人工智能+X”两个重点方向,以高定位和新机制建设中国自主的“AI顶尖人才和原始创新基座”,......

全面走向“人工智能+”国内首个汽车大模型标准发布

中国信息通信研究院(简称“中国信通院”)今天(28日)发布了国内首个汽车大模型标准。标准主要涵盖三个能力域,其中场景丰富度侧重评估汽车大模型对智能座舱和自动驾驶等细分场景的支持情况,能力支持度重点关注......

美国将成立人工智能智能制造研究所

美国国家标准与技术研究院(NIST)将公开征集并资助成立一家新的美国制造研究所,重点是利用人工智能(AI)提高美国制造业的韧性和技术水平。该研究所主要关注制造工艺、新型材料、使能技术、供应链集成和先进......

全国首例“AI声音侵权案”一审宣判

当人工智能(AI)技术能够模仿人声和言语风格,制作出各种声音效果,实现高度自然和逼真的音频产出时,是否会产生侵权风险?4月23日,北京互联网法院对全国首例“AI声音侵权案”进行一审宣判,认定原告声音权......

人工智能调制的混合咖啡上市

科技日报讯 (记者刘霞)据微软在线(MSN)网4月21日报道,总部位于芬兰首都赫尔辛基的卡夫法烘焙厂与当地人工智能(AI)咨询公司Elev携手,利用AI工具调制出一款由4种咖啡豆混合而成的新......

南开大学携手耀华中学共育人工智能创新人才

4月19日,南开大学人工智能学院与天津市耀华中学“人工智能—创新人才培养基地”共建授牌仪式举行。据了解,“人工智能—创新人才培养基地”由南开大学人工智能学院与耀华中学共同建设,双方将在学术讲座、师资队......

上海交大成立新学院,打造AI领域“黄埔军校”

人工智能未来科技对话会暨人工智能学院成立揭牌仪式在徐汇校区举行。上海市人民政府副市长刘多,上海市人民政府副秘书长尚玉英,上海交大党委书记杨振斌,上海交大校长、中国科学院院士丁奎岭共同为上海交通大学人工......

医疗影像国家新一代人工智能开放创新平台建成

历时3年建设的“医疗影像国家新一代人工智能开放创新平台”,日前正式通过科技部高技术研究发展中心的综合绩效评价,标志着我国医疗影像AI实现了从“实验室”科研到“医院”临床应用的全链路贯通。这项“新一代人......

香港生产力促进局聚焦智能制造和生成式人工智能

4月16日,香港生产力促进局举行“透过工业人工智能赋能企业走向先进制造”会议。该会议聚焦智能制造、生成式人工智能等方向,旨在充分释放工业人工智能与机器人在企业的应用与发展潜力,促进企业实现高增值生产。......

“人工智能+”的前瞻实践:打造医疗影像AI国家级平台

近日,“医疗影像国家新一代人工智能开放创新平台建设”专项结题,医疗影像AI实现从研发到落地全流程打通。据悉,该项目完成了共性技术平台建设、开源医疗数据库和算法资源库建设、行业标准体系建设,以及上下游企......