原文地址:http://news.sciencenet.cn/htmlnews/2022/6/481832.shtm
黄民烈介绍《AI对话系统分级定义》。(受访者供图)
为什么“小度”“小爱”等智能助理可以与人类进行对话和交流呢?为什么它们有时候也会“不知所云”“答非所问”呢?
清华大学计算机科学与技术系长聘副教授黄民烈告诉《中国科学报》:“如果说自然语言处理是人工智能‘皇冠上的明珠’,那么AI对话系统则是自然语言处理中最难、最核心的任务之一,是‘明珠中最亮的那颗’。”
6月28日,黄民烈联合二十多位学者共同制定的全球首个《AI对话系统分级定义》(以下简称《分级定义》)正式发布。

AI对话系统分级定义(受访者供图)
“机器人也回答不了”
图灵测试是常用的人工智能测试,测试者在不知情的情况下,向人类和AI系统随意提问。如果AI系统让平均每个测试者做出超过30%的误判,那么就认为AI系统通过了图灵测试,具有人类智能。
“起源于图灵测试的AI对话系统,是人工智能领域最重要的研究方向之一。”黄民烈说,当前,AI对话系统被业内认为是衡量人工智能发展水平的重要因素,代表了人工智能的发展方向。
据了解,在工业应用领域,AI对话系统已呈现出“爆炸式”增长的态势,其中,以“小度”“小爱”等为代表的智能助理,正广泛应用于个人助理、智能家居、智能汽车中,以谷歌对话机器人Meena和LaMDA、Facebook聊天机器人Blender为代表的开放域闲聊产品中,与大众日常生活紧密相关。
然而,有业内人士指出,当前作为前沿技术的AI对话系统标准存在缺失,造成其在应用中呈现出水平参差不齐、评价体系不一的现状,导致了业界因认知不统一而对人工智能交互水平出现误解,也引起了社会上对于AI是否具有意识、自然语言对话伦理和道德等方面的广泛讨论。
“《AI对话系统分级定义》的制定旨在衡量AI对话系统的能力水平,从而促进AI对话系统的进一步研究,同时为工业界应用提供参考。”黄民烈表示,考虑到AI对话系统任务繁多、评价维度多样、技术路线丰富,撰写小组在制定《分级定义》时仅关注完全由机器主导的对话系统,人机混合的对话系统不在考虑范围内。
换言之,人所掌握的知识是有限的,机器人也不例外。“一些简单的问题,”对话系统可以回答,但一些开放边界的问题,对话系统受限于自身知识水平就很难回答。”华为诺亚方舟语音语义首席科学家刘群向《中国科学报》举了一个例子,“有人在跟父母吵架后,问机器人该怎么办,机器人也回答不了,这需要更多知识和场景的注入。”
黄民烈进一步解释道,为了在实际应用中发挥价值,《分级定义》的制定是从用户可感知,以及可观察、可测量、可度量的角度出发,不考虑系统的具体技术实现方式,也不区分助理类任务、闲聊、知识对话等,均以“场景”进行表述。
衡量将有据可依
近年来,随着深度学习技术的不断发展,AI对话系统已经从基于规则的第一代和以传统机器学习为核心的第二代,发展到以大数据和大模型为显著特征的第三代,对话能力产生了革命性变化,在开放话题上展现了惊人的对话能力。不久前,谷歌研究员称AI已具备人格的讨论帖一度登上热搜。
黄民烈介绍,《分级定义》从自动对话能力、对话质量高低、单一/多个场景、跨场景的上下文依赖和自然切换能力、拟人化程度、主动和持续学习能力、多模态感知与表达能力等角度出发,将AI对话系统划分为从L0~L5的六个等级,等级越高,AI对话系统水平越高。
小米集团技术委员会主席、AI实验室主任王斌向《中国科学报》表示:“参照《分级定义》,当前工业界的AI对话系统水平最高已发展至L2~L3之间,比如小米旗下的智能生活助理“小爱同学”等。”
但是,参加制定《分级定义》的专家学者也纷纷表示,AI对话系统要实现更高级别还需要具备记忆、联想和推理等能力。
王斌在AI对话系统的研发过程中,时常感到难以评判所开发对话系统的水平。他期待《分级定义》发布后,AI对话系统能力水平的衡量将有据可依,对于用户来说,能够更多地关注、更清晰地理解AI对话系统;对行业来说,有助于企业明确研发方向,也能够促进行业更规范地发展。
“AI不会取代人”
2020年,OpenAI开发的自然语言处理模型GPT-3问世,其在文本方面具备空前强大的能力,由GPT-3训练的模型写了篇专栏文章发表于《卫报》。
未来的AI对话系统会取代一些传统的职业工作吗?“现在传媒界对AI就比较恐慌,尤其是AI可以辅助写作。”北京师范大学新闻传播学院院长张洪忠告诉《中国科学报》,AI对传媒业而言是生产力的提升,而不是将它妖魔化。以前是编辑写稿,后来电脑写稿,现在是AI辅助写作,都是一种辅助的工具,是生产力的提升,不会取代人。”
张洪忠一直非常关注社交机器人所带来的伦理挑战,他希望《分级定义》的发布对于思考、讨论、制定法律规范形成有力参考,以规避AI对话可能产生的伦理问题。
刘群以《分级定义》中L4中提及的人设、人格、情感、观点为例指出,即使是目前最好的AI对话系统也很难实现,“因为机器很难把握人类的思想背后隐含的背景知识、常识和逻辑等”。
刘群认为,《分级定义》能够引发AI对话系统研究领域的思考和讨论,帮助研究人员更好地发现系统的问题并明确研究方向,其制定在业内是一次大胆的尝试。
未来,AI对话系统最高级别的应用为复杂情感任务,《分级定义》的发布将促进AI对话系统在情感任务中体现更高水平,从而促进人工智能未来在情感陪伴、心理健康、虚拟人、元宇宙等方面的应用,大大释放人力和物力成本,促进前沿科技走进大众日常生活。
山西大学智能信息处理研究所团队在图神经网络研究方面取得重要进展,相关成果5月23日发表于人工智能领域国际期刊《IEEE模式分析与机器智能学报》(IEEETransactionsonPatternAna......
原文地址:http://news.sciencenet.cn/htmlnews/2024/10/531421.shtm10月11日,科幻电影《749局》科影融合特别场在京举行。电影主创团队与科技领域相......
10月11日,甘肃省迎来了职业教育领域的一个重要里程碑——甘肃林业职业技术大学正式揭牌成立。这一历史性时刻标志着历经六十八载发展的甘肃省唯一一所林业类高等院校,正式迈入了本科教育的新阶段,开启了新的征......
”标志性科考活动获系列重大突破 “第二次青藏科考标志性科考活动守护水塔‘一原两湖三江’科考主体任务已经基本完成,这次科考从天到地、从冰到水取得了全方位的进展。”第二次青藏科考队队长、中国科学......
关于确定2024年国家环境健康管理试点名单的通知北京市、河北省、内蒙古自治区、辽宁省、黑龙江省、江苏省、浙江省、江西省、山东省、湖北省、湖南省、广东省、重庆市、四川省、贵州省、陕西省、青海省生态环境厅......
10月8日,华中农业大学果蔬园艺作物种质创新与利用全国重点实验室、药用植物资源可持续利用团队梅之南教授和杨庆勇教授课题组,发布了首个专门面向菊科植物的多组学数据库平台——AsteraceaeMulti......
实验桌上堆放着精密仪器和焊接工具,电脑上是正在运行的电路图,一页页写满了数据、画满了图样的纸张在桌面铺开,各式或大或小的电子元件前,南京邮电大学工程实验教学部创新中心副主任郝学元正在埋首研制电工电子实......
近日,记者从中国计量大学获悉,该校生命科学学院蜜蜂与蜂产品学研究团队主持的两项推荐性国家标准《GB/T44349-2024 蜂花粉总多酚的检测福林酚试剂比色法》和《GB/T44350-202......
10月10日,由广东省机械行业协会组织并主持召开的“面向软性物料的多级赋码追溯柔性包装生产线研制与应用”项目科技成果鉴定会议在广东佛山举行。经专家鉴定,该项目成果总体技术水平达到国际先进水平。记者获悉......
近日,中国热带农业科学院橡胶研究所组培与转基因团队在全球率先获得了橡胶树CRISPR/Cas9纯合基因编辑橡胶苗。相关研究成果在线发表于《经济作物和产品》(IndustrialCropsandProd......