发布时间:2022-12-07 10:46 原文链接: 人工智能再次战胜人类玩家

 

下棋、玩游戏,在与人类的博弈中,人工智能(AI)正在不断成长。近日,英国DeepMind公司的AI智能体DeepNash,就在西洋陆军棋(Stratego)中达到了专业级人类玩家的水平。该成果12月1日发表于《科学》。

事实上,在DeepNash攻克Stratego前,就有报道称AI能够玩“强权外交”这款类似的经典桌游。这是一款具有外交深度的游戏,玩家间存在合作与竞争关系,必要时须通过谈判结交盟友。

“近年来,AI掌握本质不同的游戏的速度相当惊人。”美国密歇根大学计算机科学家Michael Wellman表示,Stratego和“强权外交”这两款游戏大不相同,但它们都极具挑战性,与此前AI已经掌握的游戏也截然不同。

Stratego是一款需在信息缺失情况下进行战略思考的棋盘游戏,类似于中国的军棋。它要比此前AI掌握的国际象棋、围棋或扑克复杂得多。

在游戏中,双方各有40枚棋子,且彼此看不到棋子的真实“身份”。双方轮流移动棋子,来消灭对手的棋子,最终夺得对方军旗或消灭所有能动的棋子的一方获胜。因此,玩家需要进行战略部署、收集信息,并与对方博弈。

一局Stratego游戏中会有10535种可能的布局。相比之下,围棋的布局有10360种可能。此外,在Stratego中,AI需要推理对手超过1066种部署策略,这使德州扑克中初始的106种可能情况相形见绌。

“Stratego中可能出现的结果数量之多及其复杂性,意味着在信息完全的游戏中表现出色的算法,甚至在扑克游戏中表现良好的算法,在这款游戏中都不起作用。”DeepMind研究员Julien Perolat说。

所以Perolat和同事开发了DeepNash,该命名致敬了提出纳什均衡的美国数学家约翰·纳什。

纳什均衡是博弈论中一种解的概念,指满足以下条件的策略组合:任何一位玩家在此策略组合下单方面改变自己的策略(其他玩家策略不变),都不会提高自身的收益。

DeepNash将强化学习算法与深度神经网络相结合,以找到纳什均衡。强化学习包括为游戏的每个状态找到最佳策略。为了学习最佳策略,DeepNash已经与自己进行了55亿次博弈。

今年4月,DeepNash在网络游戏平台Gravon上与人类Stratego玩家进行了两周的比赛。在50场比赛后,DeepNash目前在所有Gravon Stratego玩家中排名第三。

“我们的研究表明,像Stratego这样复杂的涉及不完善信息的游戏,不需要通过搜索技术来解决。”团队成员、DeepMind研究员Karl Tuyls表示,“这是AI迈出的一大步。”

而曾于2019年报告了玩扑克的AI——Pluribus的Meta AI研究员Noam Brown团队,则将目光投向了一个不同的挑战:建立一个可以玩“强权外交”的AI。

“强权外交”是一个最多可由7位玩家参与的游戏,每位玩家代表第一次世界大战前欧洲的主要力量,游戏目标是通过移动部队控制供应中心。重要的是,该游戏需要玩家间进行私人交流和合作,而不是像围棋或Stratego那样进行双人博弈。

“当进行超过两人的零和博弈时,纳什均衡思想对游戏就不再有用了。”Brown说,他们成功训练出了AI——Cicero。在11月22日发表于《科学》的论文中,该团队报告称,在40场游戏中,“Cicero的平均得分是人类玩家的两倍多,在玩过一场以上游戏的参与者中排名前10%”。

Brown认为,可以与人类互动并解释次优甚至非理性人类行为的游戏AI,可以为其在现实世界的应用铺平道路。

相关论文信息:

相关文章

顶级AI研究人员和CEO对灭绝人类的风险提出警告

一批顶级人工智能研究人员、工程师和首席执行官就他们认为人工智能对人类构成的生存威胁发出了新的警告。这份22个英文词汇的声明被修剪得很短,以使其尽可能地被广泛接受,内容如下:"减轻人工智能带来......

人工智能助力人类应对气候变化的重点与方向

气候变化是全人类面临的共同挑战。人类是地球这艘“飞船”上的乘客,是命运共同体,必须携手合作应对气候变化的挑战。“人工智能预测地球气温将在2033年至2035年间升温超过1.5摄氏度关口”的余音仍在,世......

让ChatGPT协助办案美国资深律师被坑

美国一名律师办案时用聊天机器人ChatGPT搜集资料并作为案例呈交法官,但法官发现那些信息全是子虚乌有。律师承认自己没有核实信息并为此道歉,眼下面临处罚。据美国有线电视新闻网28日报道,男乘客罗伯托·......

AI与超级细菌展开斗争寻找新抗生素药物对抗耐药性感染

麻省理工学院和麦克马斯特大学的研究人员利用一种人工智能算法,发现了一种新的抗生素,可以杀死一种造成许多耐药性感染的细菌。如果开发出来用于病人,这种药物可以帮助打击鲍曼不动杆菌,这是一种经常在医院发现的......

大多数美国人都听说过ChatGPT但很少有人亲自尝试过

据皮尤研究中心3月份进行的一项调查,大约十分之六的美国成年人(58%)熟悉ChatGPT,但相对而言,很少有人自己尝试过。在那些尝试过ChatGPT的人中,大多数人表示它至少有一定的作用。ChatGP......

官方的ChatGPTApp现在扩展到另外11个国家

OpenAI在一条推文中宣布,官方版ChatGPT移动应用现在可以在更多国家使用。上周OpenAI首次发布其移动应用时,该应用只在iOS和美国提供。现在,许多生活在欧洲、韩国、新西兰等地的人将能够从A......

经常忘了东西放哪里?科学家们创造了一种机器人来帮忙

新的"人工记忆"使机器人能够帮助寻找放错地方的物品。滑铁卢大学的工程师们已经开发出一种创新的方法,对机器人进行编程,以帮助痴呆症患者寻找丢失的物品,如药品、眼镜或电话。虽然主要目的......

Opera推出由OpenAI的ChatGPT支持的新的集成AI侧边栏

Opera今天宣布,它将在其浏览器中引入一个名为"Aria"的人工智能侧边栏,该侧边栏由OpenAI的ChatGPT驱动。该公司表示,Aria既是一个网络专家,也是一个浏览器专家,......

基于人工智能的Windows11壁纸效果的早期预览

几个月前,用户在Windows11预览版内发现了一些耐人寻味的字符串。这些代码表明,微软的桌面操作系统将获得人工智能驱动的墙纸效果,使桌面背景更加生动和吸引人。现在,我们第一次提前看到了这个由人工智能......

人工智能模型消化80小时的视频以学习手语

对于聋人和重听者来说,像Alexa和Siri这样的语音识别技术反而可能是有效沟通的障碍。研究人员利用人工智能开发了一种将手语转换为文本的工具,可能会增加聋人社区的包容性和可及性。翻译手语需要精确理解手......