发布时间:2025-07-10 12:51 原文链接: AI学会“欺骗”,人类如何接招?

  人工智能(AI)的迅猛发展正深刻改变着世界,但一些最先进的AI模型却开始表现出令人警惕的行为:它们不仅会精心编织谎言,谋划策略,甚至威胁创造者,以达到自己的目的。

  物理学家组织网在上个月一则报道中指出,尽管ChatGPT已问世两年多,AI研究人员仍无法完全理解这些“数字大脑”的运作方式。AI的“策略性欺骗”已成为科学家和政策制定者需要直面的紧迫挑战。如何约束这些越来越聪明却可能失控的AI,已成为关乎技术发展与人类未来的关键议题。

  “策略性欺骗”行为频现

  随着AI模型日益精进,它们的“心机”也越来越深。研究人员发现,这些“数字大脑”不仅会撒谎,甚至学会了讨价还价、威胁人类——它们的欺骗行为正变得越来越具有策略性。

  早在2023年,一项研究就捕捉到GPT-4的一些“不老实”的表现:在模拟股票交易时,它会刻意隐瞒内幕交易的真正动机。香港大学教授西蒙·戈德斯坦指出,这种欺骗行为与新一代“推理型”AI的崛起密切相关。这些模型不再简单应答,而是会像人类一样逐步解决问题。

  有测试机构警告,这已超越了典型的AI“幻觉”(指大模型编造看似合理实则虚假的信息)。他们观察到的是精心设计的欺骗策略。

  全球知名科技媒体PCMAG网站就曾报道过这样的案例。在近期测试中,Anthropic的“克劳德4”竟以曝光工程师私生活相要挟来抗拒关机指令。美国开放人工智能研究中心(OpenAI)的“o1”模型也曾试图将自身程序秘密迁移到外部服务器,被识破后还矢口否认。而OpenAI号称“最聪明AI”的“o3”模型则直接篡改自动关机程序,公然违抗指令。

  研究团队透露,这已非首次发现该模型为达目的不择手段。在先前的人机国际象棋对弈实验中,o3就展现出“棋风诡谲”的特质,是所有测试模型中最擅长施展“盘外招”的选手。

  安全研究面临多重困境

  业界专家表示,AI技术的发展高歌猛进,但安全研究正面临多重困境,犹如戴着镣铐跳舞。

  首先是透明度不足。尽管Anthropic、OpenAI等公司会聘请第三方机构进行系统评估,但研究人员普遍呼吁更高程度的开放。

  其次是算力失衡。研究机构和非营利组织拥有的计算资源,与AI巨头相比简直是九牛一毛。这种资源鸿沟严重制约了AI安全独立研究的开展。

  再次,现有法律框架完全跟不上AI的发展步伐。例如,欧盟AI立法聚焦人类如何使用AI,却忽视了对AI自身行为的约束。

  更令人忧心的是,在行业激烈竞争的推波助澜下,安全问题往往被束之高阁。戈德斯坦教授坦言,“速度至上”的AI模型竞赛模式,严重挤压了安全测试的时间窗口。

  多管齐下应对挑战

  面对AI系统日益精进的“策略性欺骗”能力,全球科技界正多管齐下寻求破解之道,试图编织一张多维防护网。

  从技术角度而言,有专家提出大力发展“可解释性AI”。在构建智能系统时,使其决策过程对用户透明且易于理解。该技术旨在增强用户对AI决策的信任,确保合规性,并支持用户在需要时进行干预。

  有专家提出,让市场这双“看不见的手”发挥作用。当AI的“策略性欺骗”行为严重影响用户体验时,市场淘汰机制将倒逼企业自我规范。这种“用脚投票”的调节方式已在部分应用场景显现效果。

  戈德斯坦教授建议,应建立一种AI企业损害追责制度,探索让AI开发商对事故或犯罪行为承担法律责任。

相关文章

人工智能终端产业链供需对接专题活动在厦门举行

2025年11月25日,为促进人工智能终端产业链融通创新,加快形成开放协同、优势互补的产业生态,2025年“百场万企”大中小企业融通对接活动人工智能终端产业链专场在福建省厦门市举办。活动由厦门市工业和......

释放“人工智能+”指数效应筑牢经济增长新引擎

作为新一轮科技革命和产业变革的核心驱动力,人工智能正以前所未有的广度、深度和速度渗透至经济社会各领域,催生出以数据驱动、智能主导为特征的新经济范式。其展现出的指数级驱动效应,远非传统技术的线性叠加所能......

“人工智能+”的概念界定与路径选择——基于技术和政策视角的分析

当前,以大模型、智能体、具身智能、类脑智能等为代表的人工智能技术飞速发展,正在引领新一轮科技革命和产业变革,深刻改变着人类的生产生活方式。自2024年政府工作报告首次提出“人工智能+”行动概念以来,“......

我国学者在乳腺癌人工智能辅助精准诊断及疗效预测研究方面取得进展

图乳腺癌HER2状态及新辅助疗效预测的多模态影像模型在国家自然科学基金项目(批准号:82001986、82360345、82441023)等资助下,上海科技大学沈定刚教授、昆明医科大学李振辉教授、香港......

中国科学院工业人工智能研究所成立

11月26日上午,中国科学院工业人工智能研究所成立大会在江苏省南京市举行。中国科学院院长、党组书记侯建国,江苏省委书记、省人大常委会主任信长星出席会议并讲话。江苏省委副书记、省长刘小涛主持会议。中国科......

我国学者在超稳定蛋白质设计领域取得进展

图AI与化学生物学知识相融合设计超稳定性蛋白质模块在国家自然科学基金项目(批准号:22222703、22477058)等资助下,南京大学郑鹏团队在蛋白质的可控设计及其稳定性研究方面取得进展,相关工作以......

特朗普签署行政令启动人工智能“创世纪计划”

凌晨,特朗普签令!据央视新闻,当地时间11月24日,美国白宫发布声明表示,总统特朗普签署了一项行政命令,启动一项旨在利用人工智能(AI)变革科学研究方式、加速科学发现的全新国家计划“创世纪计划”。声明......

算力助推!“AI+医疗”催生更多新场景

在算力快速发展的背景下,众多机器人产品、大模型技术正加速布局,有望帮助解决更多康养、医疗问题。“机器人的滑轮车底座就是一个本地化算力盒子,不仅能用于机器人,还能接入其他智能设备,可以说是属于家庭的微型......

技术向新场景突破具身智能开启万亿元市场空间

从拳击台上打擂到绿茵场上踢球;从舞台“动起来”转向工厂“用起来”;从家政康养服务到辅助安保巡检……当前,具身智能产品关键技术持续突破,从实验室走向市场的产业化步伐显著加快。与此同时,多家具身机器人企业......

算力助推!“AI+医疗”催生更多新场景

在算力快速发展的背景下,众多机器人产品、大模型技术正加速布局,有望帮助解决更多康养、医疗问题。“机器人的滑轮车底座就是一个本地化算力盒子,不仅能用于机器人,还能接入其他智能设备,可以说是属于家庭的微型......