人工智能(AI)在给出准确答案的同时,也会有一些“胡乱输出”令人难辨真假,这被称为“幻觉”(hallucination)。而新一期《自然》杂志发表的一项研究报道了一种新方法,能检测大语言模型(LLM)产生的“幻觉”,即该方法能测量生成回答的含义的不确定性,或能提升LLM输出答案的可靠性。
类似ChatGPT和Gemini等LLM,是能阅读和生成自然人类语言的AI系统。不过,这类系统很容易产生所谓“幻觉”,即生成不准确或没有意义的内容。检测LLM出现的这种错误非常难,因为这些回答的呈现方式看起来很可信。
英国牛津大学研究团队此次尝试量化一个LLM产生此类错误的程度,从而判断生成的内容有多忠于提供的源内容。他们的方法能检测“编造”——这是幻觉的一个子类别,特指不准确和随意的内容,常出现在LLM缺乏某类知识的情况下。这种方法考虑了语言的微妙差别,以及回答如何能以不同的方式表达,从而拥有不同的含义。团队的研究表明,他们的方法能在LLM生成的个人简介,以及关于琐事、常识和生命科学这类话题的回答中识别出“编造”内容。
在同时发表的新闻与观点文章中,澳大利亚皇家墨尔本理工大学科学家指出,该方法由一个LLM完成,并通过第三个LLM进行评价,等于在“以毒攻毒”。文章写道,“用一个LLM评估一种基于LLM的方法似乎是在循环论证,而且可能有偏差。”不过,团队指出他们的方法有望帮助用户理解在哪些情况下使用LLM的回答需要注意,也意味着可以提高LLM在更多应用场景中的置信度。
“以AI创新解决纳米递送难题,不断推进自主研发的创新进程,为CGT(细胞与基因治疗)产业高质量发展提供中国递送方案。”近日,剂泰科技基于该系统孵化的OpenCGT(细胞与基因治疗)平台在北京大兴落地,......
“以AI创新解决纳米递送难题,不断推进自主研发的创新进程,为CGT(细胞与基因治疗)产业高质量发展提供中国递送方案。”近日,剂泰科技基于该系统孵化的OpenCGT(细胞与基因治疗)平台在北京大兴落地,......
《自然》杂志6日发表的一篇封面文章报道了一种由人工智能(AI)模型辅助设计的超黏水凝胶。这种胶以自然界存在的黏附蛋白为灵感,能修补水管漏洞并在水下黏住物体,具有一系列潜在应用。要设计出在潮湿环境中具有......
《自然》杂志6日发表的一篇封面文章报道了一种由人工智能(AI)模型辅助设计的超黏水凝胶。这种胶以自然界存在的黏附蛋白为灵感,能修补水管漏洞并在水下黏住物体,具有一系列潜在应用。要设计出在潮湿环境中具有......
全球AI领域备受关注的世界人工智能大会刚落幕,上海抓紧又忙活起来了。日前,上海市政府常务会议原则同意《上海市加快推动“AI+制造”发展的实施方案》。该文件明确,必须把握人工智能赋能制造业的战略机遇,以......
全球AI领域备受关注的世界人工智能大会刚落幕,上海抓紧又忙活起来了。日前,上海市政府常务会议原则同意《上海市加快推动“AI+制造”发展的实施方案》。该文件明确,必须把握人工智能赋能制造业的战略机遇,以......
当前,科学研究向极宏观拓展、向极微观深入、向极端条件迈进、向极综合交叉发力,技术创新的颠覆性、扩散性、渗透性特征更加凸显,科学、技术、工程和经济社会发展的边界趋于融合、模糊。这标志着全球科研范式正处在......
当前,科学研究向极宏观拓展、向极微观深入、向极端条件迈进、向极综合交叉发力,技术创新的颠覆性、扩散性、渗透性特征更加凸显,科学、技术、工程和经济社会发展的边界趋于融合、模糊。这标志着全球科研范式正处在......
美国斯坦福大学医学院团队开发出一种名为“虚拟实验室”的创新工具。该系统以人工智能(AI)为核心,结合跨学科科学家团队,旨在解决复杂问题并加速科学发现进程,可在多领域极大提高科研效率。相关论文29日发表......
美国斯坦福大学医学院团队开发出一种名为“虚拟实验室”的创新工具。该系统以人工智能(AI)为核心,结合跨学科科学家团队,旨在解决复杂问题并加速科学发现进程,可在多领域极大提高科研效率。相关论文29日发表......