用AI生成数据训练AI或导致模型崩溃

科技日报北京7月25日电 (记者张梦然)《自然》24日正式发表的一篇研究论文指出了一个人工智能(AI)严重问题:用AI生成的数据集训练未来几代机器学习模型,可能会严重“污染”它们的输出,这被称为“模型崩溃”。研究显示,原始内容会在9次迭代以后,变成不相关的“胡言乱语”(演示中一个建筑文本最终变成了野兔的名字),这凸显出使用可靠数据训练AI模型的重要性。生成式AI工具越来越受欢迎,如大语言模型等,这类工具主要用人类生成的输入进行训练。不过,随着这些AI模型在互联网不断壮大,计算机生成内容可能会以递归循环的形式被用于训练其他AI模型或其自身。包括英国牛津大学在内的联合团队一直在进行相关研究,并在去年论文预印本中提出这一概念。在正式发表的论文中,他们用数学模型演示了AI可能会出现的“模型崩溃”。他们证明了一个AI会忽略训练数据中的某些输出(如不太常见的文本),导致其只用一部分数据集来自我训练。团队分析了AI模型会如何处理主要......阅读全文

用AI生成数据训练AI或导致模型崩溃

  《自然》24日正式发表的一篇研究论文指出了一个人工智能(AI)严重问题:用AI生成的数据集训练未来几代机器学习模型,可能会严重“污染”它们的输出,这被称为“模型崩溃”。研究显示,原始内容会在9次迭代以后,变成不相关的“胡言乱语”(演示中一个建筑文本最终变成了野兔的名字),这凸显出使用可靠数据训练

用AI生成数据训练AI或导致模型崩溃

科技日报北京7月25日电 (记者张梦然)《自然》24日正式发表的一篇研究论文指出了一个人工智能(AI)严重问题:用AI生成的数据集训练未来几代机器学习模型,可能会严重“污染”它们的输出,这被称为“模型崩溃”。研究显示,原始内容会在9次迭代以后,变成不相关的“胡言乱语”(演示中一个建筑文本最终变成了野

《自然》封面:以AI生成数据训练AI,模型变傻?

大模型有许多“崩”的时候,但有一种崩溃叫做“自毁前程”——近日,《自然》发表在封面的一篇论文指出,用AI生成的数据集训练未来几代机器学习模型,可能会“污染”它们的输出。这项由英国牛津大学、剑桥大学、帝国理工学院、加拿大多伦多大学等多所高校联合开展的研究显示,原始内容会在数代内变成不相关的“胡言乱语”

《自然》封面:以AI生成数据训练AI,模型变傻?

  大模型有许多“崩”的时候,但有一种崩溃叫做“自毁前程”——  近日,《自然》发表在封面的一篇论文指出,用AI生成的数据集训练未来几代机器学习模型,可能会“污染”它们的输出。这项由英国牛津大学、剑桥大学、帝国理工学院、加拿大多伦多大学等多所高校联合开展的研究显示,原始内容会在数代内变成不相关的“胡

用AI数据训练AI可能最终导致崩溃

《自然》7月24日发表的一篇论文指出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会污染它们的输出,这个概念称为“模型崩溃”(model collapse)。该研究显示,原始内容会在数代内变成不相关的胡言乱语,显示出使用可靠数据训练AI模型的重要性。生成式AI工具越来越受欢迎,如大语言

用AI数据训练AI可能最终导致崩溃

  《自然》7月24日发表的一篇论文指出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会污染它们的输出,这个概念称为“模型崩溃”(model collapse)。该研究显示,原始内容会在数代内变成不相关的胡言乱语,显示出使用可靠数据训练AI模型的重要性。  生成式AI工具越来越受欢迎,

合成数据能否让AI模型精确可靠?

人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:“在AI训练中,我们现在基本上耗尽了人类知识的累积总和。”之前研究也表明,人类生成的真实数据将在2到8年内消耗殆尽。鉴于真实数据日益稀缺,为满足AI的“胃口”,科技行业正转向使用合成数据。澳大利亚“对话”网站在本月稍早时间报道中指出,合成数据

合成数据能否让AI模型精确可靠?

人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:“在AI训练中,我们现在基本上耗尽了人类知识的累积总和。”之前研究也表明,人类生成的真实数据将在2到8年内消耗殆尽。鉴于真实数据日益稀缺,为满足AI的“胃口”,科技行业正转向使用合成数据。澳大利亚“对话”网站在本月稍早时间报道中指出,合成数据

合成数据能否让AI模型精确可靠?

  人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:“在AI训练中,我们现在基本上耗尽了人类知识的累积总和。”之前研究也表明,人类生成的真实数据将在2到8年内消耗殆尽。鉴于真实数据日益稀缺,为满足AI的“胃口”,科技行业正转向使用合成数据。  澳大利亚“对话”网站在本月稍早时间报道中指出,

生成式AI时代,大模型数据安全如何保障?

在生成式AI(人工智能)时代,数据安全的出路可能会是“用魔法打败魔法”,知识产权保护也可能要提前到token(字符串)层面。4月26日,在2024中关村论坛上,人工智能企业与学者就AI大模型的数据安全问题进行了讨论。中关村论坛数据安全治理与发展论坛现场  澎湃新闻记者 秦盛 摄“在生成式人工智能时代

新训练可减少AI系统社会偏见

来自美国俄勒冈州立大学工程学院和Adobe公司的科学家携手,开发出一种用于训练人工智能(AI)的新技术FairDeDup。该技术不仅能降低训练成本,而且有望减少AI系统的社会偏见。研究团队已经在近期于美国西雅图举行的IEEE/CVF计算机视觉和模式识别会议大会上介绍了FairDeDup算法。该会议是

新训练可减少AI系统社会偏见

来自美国俄勒冈州立大学工程学院和Adobe公司的科学家携手,开发出一种用于训练人工智能(AI)的新技术FairDeDup。该技术不仅能降低训练成本,而且有望减少AI系统的社会偏见。研究团队已经在近期于美国西雅图举行的IEEE/CVF计算机视觉和模式识别会议大会上介绍了FairDeDup算法。该会议是

启信慧眼发布商业大数据领域AI大模型应用,降低“AI幻觉”概率

7月17日,上海合合信息科技股份有限公司旗下启信慧眼宣布完成品牌升级,定位为“商业数据智能决策企业级AI产品”。同时,启信慧眼首次发布中国商业大数据领域AI大模型应用,聚焦企业营销、尽调、风控等核心场景,赋能企业数智化转型。“慧眼”寓意洞察本质、明辨真伪的能力。合合信息数据事业部副总经理沈东辉表示,

人工智能框架生态峰会掀开AI大模型新篇章

原文地址:http://news.sciencenet.cn/htmlnews/2023/6/502804.shtm

AI“模型崩溃”风险需警惕

从客户服务到内容创作,人工智能(AI)影响了众多领域的进展。但是,一个日益严重的被称为“模型崩溃”的问题,可能会使AI的所有成就功亏一篑。“模型崩溃”是今年7月发表在英国《自然》杂志上的一篇研究论文指出的问题。它是指用AI生成的数据集训练未来几代机器学习模型,可能会严重“污染”它们的输出。多家外媒报

AI“模型崩溃”风险需警惕

图片来源:美国《The Week》从客户服务到内容创作,人工智能(AI)影响了众多领域的进展。但是,一个日益严重的被称为“模型崩溃”的问题,可能会使AI的所有成就功亏一篑。“模型崩溃”是今年7月发表在英国《自然》杂志上的一篇研究论文指出的问题。它是指用AI生成的数据集训练未来几代机器学习模型,可能会

DeepMind-AI模型预测天气又快又好

近日一项发表于《自然》的研究报道了谷歌DeepMind开发的首个天气预测人工智能(AI)模型——GenCast。该模型比目前运行中的最佳中期预报系统——欧洲中期天气预报中心的集合预报(ENS)更精准。GenCast在8分钟内就能完成15天的预测,而目前的预测程序需要几个小时。据介绍,包括ENS在内的

AI语言模型“提速”药物发现

原文地址:http://news.sciencenet.cn/htmlnews/2023/6/502762.shtm美国麻省理工学院和塔夫茨大学研究人员设计出一种基于大型语言模型(如ChatGPT)的人工智能算法,这种称为ConPLex的新模型可将目标蛋白与潜在的药物分子相匹配,而无需执行计算分子结

AI大模型“拿捏”电池寿命

作为现代生活中不可或缺的能源载体,电池的重要性不言而喻。从清晨唤醒我们的闹钟,到随身携带的手机、平板电脑等智能设备,无一不依赖于电池提供的稳定电力。此外,随着科技的发展,电动汽车、无人机等新兴领域也广泛应用了各类高性能电池,推动了绿色出行和智能科技的进步。因此,电池不仅极大地便利了我们的日常生活,还

学术论文正被高价出售给大模型训练,作者却零收入

·越来越多的学术出版商正将研究论文卖给科技公司用以训练人工智能(AI)模型,而作者收入为零。大语言模型(LLM)因训练数据问题再次引发争议。日前,国际著名期刊《自然》(《Nature》)杂志编辑伊丽莎白·吉普尼(Elizabeth Gibney)发布一篇题为《你的论文被用来训练人工智能模型了吗?几乎

推动人工智能产业快速发展要把保障数据安全放在突出位置

  美国人工智能公司OpenAI推出GPT Store,掀起AI应用新潮流;谷歌遭遇裁员风波,聚焦AI战略调整;特斯拉创始人埃隆·马斯克起诉OpenAI,指控其背离了初衷,将人工智能用于盈利而非为人类福祉服务……近期,人工智能领域大模型声势高涨,产品与服务推陈出新,但同时也伴随着诸多争议,尤其是在数

基于昇腾AI的紫东.太初凭何脱颖而出?

9月1日,2022世界人工智能大会最高大奖SAIL(Super AI Leader,卓越人工智能引领者)尘埃落定。 三模态人工智能大模型“紫东.太初”在800多个角逐者中脱颖而出一举夺魁。此前数周,在济南举行的首届中国算力大会上,“紫东.太初”同样表现稳健,抱回“DC Tech创新先锋”奖杯。

3大遥感数据源接入“商汤地界”AI遥感大模型

原文地址:http://news.sciencenet.cn/htmlnews/2024/3/519533.shtm近日,商汤科技宣布携手国内头部遥感数据平台“吉林一号网”、“四维地球”、“星图地球”,升级了其“SenseEarth智能遥感云”平台的数据源。用户无需准备数据,即可通过“商汤地界”平台

释放AI大模型促消费潜力

  今年的《政府工作报告》提出持续推进“人工智能+”行动,旨在抓住人工智能技术突破机遇,使我国数字技术与制造优势、市场规模优势充分结合,推动人工智能大模型广泛应用,真正赋能千行百业、走进千家万户。在构建新发展格局战略背景下,AI大模型在激活内需市场、促进消费升级等方面充满“模”力。  随着人工智能技

AI视频生成模型Sora来了

原文地址:http://news.sciencenet.cn/htmlnews/2024/2/517625.shtm

AI模型助力精准诊断冠心病

近日,由上海市第一人民医院与联影智能的一项研究开发并验证一款可自动量化心肌血流状况的CT心肌灌注成像深度学习模型,辅助医生准确诊断患者心肌缺血程度,其衍生的缺血心肌体积百分比指数可作为预测不良心血管事件(以下简称MACE)发生概率的重要参考,能帮助医生预判患者发病几率,进而制定个性化治疗方案。相关论

马斯克宣称的“最强AI训练系统”上线

科技日报讯 (记者刘霞)人工智能(AI)争霸赛硝烟再起。据美国“数码趋势”网站近日报道,xAI公司首席执行官埃隆·马斯克在X平台上宣布,该公司打造的超级AI训练集群Colossus已正式上线。马斯克称该集群为世界上“最强大的AI训练系统”。所谓“最强大”的说法基于该系统所用图形处理器(GPU)的数量

“弱智吧”帖子训练AI效果最好?作者回应

白岳霖和他的小伙伴们实在想不到,他们最近做的中文指令微调数据集,会因为使用了百度贴吧“弱智吧”的帖子相关数据而火爆“出圈”。白岳霖是中国科学院深圳先进技术研究院三年级硕士生。他的团队在题为“COIG-CQIA: Quality is All You Need for Chinese Instruct

马斯克计划年底训练出“世界最强AI”

马斯克称将在今年年底训练出全球最强AI。当地时间7月22日,特斯拉CEO埃隆·马斯克在旗下社交平台X上表示,xAI团队、X团队、英伟达及其他支持公司已经于当地时间凌晨4时20分开始在“孟菲斯超级集群(Memphis Supercluster)”上进行训练。他介绍,“孟菲斯超级集群”由10万个液冷H1

马斯克出手,打造“地表最强AI训练集群”

以10万块英伟达“H100”液冷GPU构建的算力集群,将会产生怎样的洪荒之力?近日,SpaceX和特斯拉的创始人埃隆·马斯克在社交平台发文称,如此规模的超级算力集群正部署在美国田纳西州孟菲斯市的“xAI孟菲斯超算中心”。要指出的是,“H100”是英伟达专为处理大型语言模型数据而开发的芯片,每块芯片价