6月18日,《自然》发表的一项研究报道了一种能检测大语言模型(LLM)幻觉(hallucination)的方法,该方法能检测生成回答的含义的不确定性,或能用于提升LLM输出的可靠性。
LLM(如ChatGPT和Gemini)是能阅读和生成人类自然语言的人工智能系统。不过,这类系统很容易产生幻觉,生成不准确或没有意义的内容,即“一本正经地胡说八道”。不过,检测LLM出现幻觉的程度很难,因为这些回答的呈现方式可能会让它们看起来很可信。
来自英国牛津大学的Sebastian Farquhar和同事尝试量化一个LLM产生幻觉的程度,进而判断生成的内容有多“忠于”提供的源内容。他们的方法能检测“编造”(confabulation)——这是“幻觉”的一个子类别,特指不准确和随意的内容,常出现在LLM缺乏某类知识的情况下。这种方法考虑了语言的微妙差别,以及回答如何能以不同的方式表达,从而拥有不同的含义。他们的研究表明,这一方法能在LLM生成的个人简介,以及关于琐事、常识和生命科学这类话题的回答中识别出“胡说八道”的内容。
不过,Sebastian Farquhar等人的研究方法,也离不开大模型这一得力工具。《自然》同时发表的“新闻与观点”文章指出,该任务由一个大语言模型完成,并通过第三个大语言模型进行评价,相当于是“以毒攻毒”。
该文作者同时也在担忧,用一个大模型评估一种基于大模型的方法“似乎是在循环论证,而且可能有偏差”。不过,作者认为,他们的方法有望帮助用户理解在哪些情况下使用LLM的回答需要注意,也意味着可以提高LLM在应用场景中的置信度。
相关论文信息:https://www.nature.com/articles/s41586-024-07421-0
原文地址:http://news.sciencenet.cn/htmlnews/2024/10/531421.shtm10月11日,科幻电影《749局》科影融合特别场在京举行。电影主创团队与科技领域相......
10月11日,甘肃省迎来了职业教育领域的一个重要里程碑——甘肃林业职业技术大学正式揭牌成立。这一历史性时刻标志着历经六十八载发展的甘肃省唯一一所林业类高等院校,正式迈入了本科教育的新阶段,开启了新的征......
”标志性科考活动获系列重大突破 “第二次青藏科考标志性科考活动守护水塔‘一原两湖三江’科考主体任务已经基本完成,这次科考从天到地、从冰到水取得了全方位的进展。”第二次青藏科考队队长、中国科学......
关于确定2024年国家环境健康管理试点名单的通知北京市、河北省、内蒙古自治区、辽宁省、黑龙江省、江苏省、浙江省、江西省、山东省、湖北省、湖南省、广东省、重庆市、四川省、贵州省、陕西省、青海省生态环境厅......
10月8日,华中农业大学果蔬园艺作物种质创新与利用全国重点实验室、药用植物资源可持续利用团队梅之南教授和杨庆勇教授课题组,发布了首个专门面向菊科植物的多组学数据库平台——AsteraceaeMulti......
实验桌上堆放着精密仪器和焊接工具,电脑上是正在运行的电路图,一页页写满了数据、画满了图样的纸张在桌面铺开,各式或大或小的电子元件前,南京邮电大学工程实验教学部创新中心副主任郝学元正在埋首研制电工电子实......
近日,记者从中国计量大学获悉,该校生命科学学院蜜蜂与蜂产品学研究团队主持的两项推荐性国家标准《GB/T44349-2024 蜂花粉总多酚的检测福林酚试剂比色法》和《GB/T44350-202......
10月10日,由广东省机械行业协会组织并主持召开的“面向软性物料的多级赋码追溯柔性包装生产线研制与应用”项目科技成果鉴定会议在广东佛山举行。经专家鉴定,该项目成果总体技术水平达到国际先进水平。记者获悉......
近日,中国热带农业科学院橡胶研究所组培与转基因团队在全球率先获得了橡胶树CRISPR/Cas9纯合基因编辑橡胶苗。相关研究成果在线发表于《经济作物和产品》(IndustrialCropsandProd......
近日,中国热带农业科学院热带生物技术研究所香(大)蕉栽培生理生态研究组从森林链霉菌2-6中分离获得抗枯萎病菌(FocTR4)的活性物质FluvirucinB6,解析了该抗真菌物质的抑菌作用位点及抑菌机......