部分AI系统已学会欺骗人类，甚至能瞒过安全测试

发布时间：2024-05-11 13:13 原文链接：部分AI系统已学会欺骗人类，甚至能瞒过安全测试

META的CICERO在外交游戏中预谋欺骗的例子。图片来源：PARK GOLDSTEIN 等/《模式》杂志

许多人工智能（AI）系统已学会了欺骗人类，即使是经过训练的、“表现”出有用且诚实的系统。10日发表在《模式》杂志上的一篇文章中，研究人员描述了欺骗性AI的风险，并呼吁政府制定强有力的法规尽快解决这个问题。

论文第一作者、美国麻省理工学院人工智能安全研究员彼得·朴说，开发人员对导致AI出现欺骗这种不良行为的原因，还没有很好的理解。但总的来说，AI欺骗之所以出现，是因为基于欺骗的策略，是在给定的AI训练任务中一种能得到良好反馈的方式，换句话说，欺骗可帮助AI实现目标。

研究人员分析了文献，重点关注AI系统传播虚假信息的方式。通过欺骗，AI系统地学习了如何去操纵他人。

研究人员在分析中发现的最引人注目的例子是Meta公司的CICERO。这是一个专注《外交》游戏的AI系统，《外交》是一款涉及建立联盟征服世界的游戏。Meta声称训练 CICERO “在很大程度上是诚实和乐于助人的 ”，且在玩游戏时“从不故意背刺 ”人类盟友。但该公司与《科学》论文一起发布的数据显示，CICERO并不那么“忠厚”。

研究人员发现这款AI或已成为欺骗大师。虽然Meta成功地训练该AI在《外交》游戏中获胜，但Meta未能训练它诚实地获胜。

AI系统在游戏中作弊看似无害，但它将导致欺骗性AI在能力上出现突破，未来可能会演变成更高级的AI欺骗形式。一些AI系统甚至学会了欺骗旨在评估其安全性的测试。在一项研究中，数字模拟器中的AI生物会“装死”，以骗过旨在消除快速复制AI系统的重要测试。

其他网友还关注过

更多与部分AI系统已学会欺骗人类，甚至能瞒过安全测试相关的新闻

实验室

山西师范大学分析测试中心化学工程联合国家重点实验室(华东理工大学)

部分AI系统已学会欺骗人类，甚至能瞒过安全测试

其他网友还关注过

AI大模型助力前列腺癌无创精准诊断与分级

AI大模型助力前列腺癌无创精准诊断与分级

未来智能社会什么样？从AI到AI+

未来智能社会什么样？从AI到AI+

AI驱动脑部设备助力瘫痪患者操控机械臂

AI驱动脑部设备助力瘫痪患者操控机械臂

AI创新法“丈量”厄尔尼诺南方涛动未来变化

AI创新法“丈量”厄尔尼诺南方涛动未来变化

AI“副驾”增强脑机接口操控力

AI“副驾”增强脑机接口操控力