用AI数据训练AI可能最终导致崩溃
《自然》7月24日发表的一篇论文指出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会污染它们的输出,这个概念称为“模型崩溃”(model collapse)。该研究显示,原始内容会在数代内变成不相关的胡言乱语,显示出使用可靠数据训练AI模型的重要性。 生成式AI工具越来越受欢迎,如大语言模型(LLM)等,这类工具主要用人类生成的数据进行训练。不过,随着这些AI模型在互联网不断壮大,计算机生成内容可能会以递归循环的形式被用于训练其他AI模型或其自身。 英国牛津大学的Ilia Shumailov和同事用数学模型演示了AI模型可能会如何出现模型崩溃。研究人员证明了一个AI可能会忽略训练数据中的某些输出(如不太常见的文本),导致其只用一部分数据集进行自我训练。 Shumailov和同事还研究了AI模型会如何应对主要用人工智能生成的训练数据集。他们发现,给模型输入AI生成的数据会减弱今后几代模型的学习能力,最终导致......阅读全文
用AI数据训练AI可能最终导致崩溃
《自然》7月24日发表的一篇论文指出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会污染它们的输出,这个概念称为“模型崩溃”(model collapse)。该研究显示,原始内容会在数代内变成不相关的胡言乱语,显示出使用可靠数据训练AI模型的重要性。 生成式AI工具越来越受欢迎,
用AI数据训练AI可能最终导致崩溃
《自然》7月24日发表的一篇论文指出,用人工智能(AI)生成的数据集训练未来几代机器学习模型可能会污染它们的输出,这个概念称为“模型崩溃”(model collapse)。该研究显示,原始内容会在数代内变成不相关的胡言乱语,显示出使用可靠数据训练AI模型的重要性。生成式AI工具越来越受欢迎,如大语言
用AI生成数据训练AI或导致模型崩溃
《自然》24日正式发表的一篇研究论文指出了一个人工智能(AI)严重问题:用AI生成的数据集训练未来几代机器学习模型,可能会严重“污染”它们的输出,这被称为“模型崩溃”。研究显示,原始内容会在9次迭代以后,变成不相关的“胡言乱语”(演示中一个建筑文本最终变成了野兔的名字),这凸显出使用可靠数据训练
用AI生成数据训练AI或导致模型崩溃
科技日报北京7月25日电 (记者张梦然)《自然》24日正式发表的一篇研究论文指出了一个人工智能(AI)严重问题:用AI生成的数据集训练未来几代机器学习模型,可能会严重“污染”它们的输出,这被称为“模型崩溃”。研究显示,原始内容会在9次迭代以后,变成不相关的“胡言乱语”(演示中一个建筑文本最终变成了野
《自然》封面:以AI生成数据训练AI,模型变傻?
大模型有许多“崩”的时候,但有一种崩溃叫做“自毁前程”——近日,《自然》发表在封面的一篇论文指出,用AI生成的数据集训练未来几代机器学习模型,可能会“污染”它们的输出。这项由英国牛津大学、剑桥大学、帝国理工学院、加拿大多伦多大学等多所高校联合开展的研究显示,原始内容会在数代内变成不相关的“胡言乱语”
《自然》封面:以AI生成数据训练AI,模型变傻?
大模型有许多“崩”的时候,但有一种崩溃叫做“自毁前程”—— 近日,《自然》发表在封面的一篇论文指出,用AI生成的数据集训练未来几代机器学习模型,可能会“污染”它们的输出。这项由英国牛津大学、剑桥大学、帝国理工学院、加拿大多伦多大学等多所高校联合开展的研究显示,原始内容会在数代内变成不相关的“胡
美AI巨头被控秘密“侵吞”数据
人工智能(AI)迅速发展离不开对模型的训练。然而,高质量数据短缺以及部分领域封闭式的数据生态似乎成为AI发展的掣肘。据多家外媒报道,OpenAI、谷歌和Meta等公司正寻求在线信息来训练最新的AI系统。但他们无视既定政策,蓄意改变规则,并试图规避版权法。收集数据“走捷径”英国《泰晤士报》近日刊文指出
数据“中毒”会让AI“自己学坏”
在一个繁忙的火车站,监控摄像头正全方位追踪站台的情况,乘客流量、轨道占用、卫生状况……所有信息实时传输给中央人工智能(AI)系统。这个系统的任务是帮助调度列车,让它们安全准点进站。然而,一旦有人恶意干扰,比如用一束红色激光模拟列车尾灯,那么摄像头可能会误以为轨道上已有列车。久而久之,AI学会了把
“AI靶场”让数据管理更精准
数字经济时代,数据已成为新型生产要素。通过“数据托管”等形式对数据进行集中管理,有助于保护数据主体权益,促进数据共享和运用效率,对数字经济的发展具有重要意义。近日,在深圳数据交易所(简称“深数所”)的支持下,鹏城实验室AI靶场与合合信息旗下启信宝达成合作,双方成功完成首批数据托管事宜的对接,为中国数
AI教育风潮席卷中国高校-学生用AI学AI
“What does this machine do(这台机器是干什么的)?”4日下午,西南交通大学孟加拉国留学生Zahidul Alam拍下身前吊弦疲劳试验仪器的照片。收到他的语音提问后,手机中的24小时在线“AI学伴”瞬间给出如论文般详细的英文回答。 这是西南交大首门人工智能通识课的第一课
用AI识别AI:西湖大学研究可检测AI生成文本
虚假新闻、恶意产品评论、剽窃……ChatGPT、 GPT-4等AI大语言模型的应用带来便利,但其误用也带来一系列问题。西湖大学工学院张岳教授的“文本智能实验室”日前发布的一项研究提出一种高准确率、高速、低成本、通用的新文本检测方法——Fast-DetectGPT,无需训练即可识别各种AI大语言模型生
合成数据能否让AI模型精确可靠?
人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:“在AI训练中,我们现在基本上耗尽了人类知识的累积总和。”之前研究也表明,人类生成的真实数据将在2到8年内消耗殆尽。鉴于真实数据日益稀缺,为满足AI的“胃口”,科技行业正转向使用合成数据。澳大利亚“对话”网站在本月稍早时间报道中指出,合成数据
合成数据能否让AI模型精确可靠?
人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:“在AI训练中,我们现在基本上耗尽了人类知识的累积总和。”之前研究也表明,人类生成的真实数据将在2到8年内消耗殆尽。鉴于真实数据日益稀缺,为满足AI的“胃口”,科技行业正转向使用合成数据。 澳大利亚“对话”网站在本月稍早时间报道中指出,
合成数据能否让AI模型精确可靠?
人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:“在AI训练中,我们现在基本上耗尽了人类知识的累积总和。”之前研究也表明,人类生成的真实数据将在2到8年内消耗殆尽。鉴于真实数据日益稀缺,为满足AI的“胃口”,科技行业正转向使用合成数据。澳大利亚“对话”网站在本月稍早时间报道中指出,合成数据
ChatGPT的拷问:何为AI伦理、AI治理
原文地址:http://news.sciencenet.cn/htmlnews/2023/2/494707.shtm 前不久,AI聊天机器人程序ChatGPT席卷全球,完成了AI第一次大规模的自传播。作为人工智能领域的现象级应用,ChatGPT可能引发的信任、责任、伦理、法律等问题也很快引发各
“AI+”时代-|-AI“解码”免疫系统
人体免疫系统包含了很多有关身体健康的信息,其中的关键部分就包含在血液中。医学界提出了一个大胆设想:通过创建一个万能的血液测试,采集免疫系统与病原体之间的反应信息,绘制“免疫图谱”,从而解码免疫系统中的信息,及时在疾病恶化前筛查确诊。那么,什么样的平台能提供足够的计算力,不断通过机器学习和精准模型
ChatGPT的拷问:何为AI伦理、AI治理
前不久,AI聊天机器人程序ChatGPT席卷全球,完成了AI第一次大规模的自传播。作为人工智能领域的现象级应用,ChatGPT可能引发的信任、责任、伦理、法律等问题也很快引发各界关注与担忧。近年来,不少关于人工智能(AI),并和人类生产、生活关系紧密的议题被广泛讨论,诸如“如何应对AI可能对社会产生
“AI+大数据”推动数据挖掘走向数智化治理
5月20日,阿里巴巴副总裁、阿里云计算平台负责人贾扬清在媒体沟通会上表示,经过近20年的发展,人们对大数据的利用已从早期的数据挖掘进化为集数据分析、数据管理、数据协同为一体的综合治理,在这一进程中,大数据与人工智能(AI)技术的融合居功甚伟。 贾扬清提到,数字经济迅猛发展,不断丰富、增长的数
启信慧眼发布商业大数据领域AI大模型应用,降低“AI幻觉”概率
7月17日,上海合合信息科技股份有限公司旗下启信慧眼宣布完成品牌升级,定位为“商业数据智能决策企业级AI产品”。同时,启信慧眼首次发布中国商业大数据领域AI大模型应用,聚焦企业营销、尽调、风控等核心场景,赋能企业数智化转型。“慧眼”寓意洞察本质、明辨真伪的能力。合合信息数据事业部副总经理沈东辉表示,
为什么越使用AI,越活得像个AI
生成式人工智能(AIGC)在重塑生产力的同时,也给高等教育领域带来了颠覆性变革。然而,它所具有的“技术双面性”很可能引发“流利但不真实”“道德偏见”“技术依赖”等问题,这将影响高等教育场景。2023年初,全球多所高校陆续出台政策禁止学生使用生成式AI,但越来越多的大学开始意识到生成式AI势不可挡,单
AI“参谋”来了!中关村AI新药研发平台落成
12月19日,由中关村生命科学园与角井(北京)生物技术有限公司共同发起建设的中关村AI新药研发平台在北京中关村生命科学园举行落成典礼。该平台于2020年12月开始筹建,旨在利用人工智能技术帮助制药企业快速进行药物靶点发现和筛选、药物作用机制探索、特异性抗体优化等工作,成为生物医药企业新药研发的
利用“数据+知识+AI”实现新靶标药物虚拟筛选
6月6日,中国科学院上海药物研究所郑明月课题组在《自然-机器智能》(Nature Machine Intelligence)上发表了题为Generic protein–ligand interaction scoring by integrating physical prior knowled
生成式AI时代,大模型数据安全如何保障?
在生成式AI(人工智能)时代,数据安全的出路可能会是“用魔法打败魔法”,知识产权保护也可能要提前到token(字符串)层面。4月26日,在2024中关村论坛上,人工智能企业与学者就AI大模型的数据安全问题进行了讨论。中关村论坛数据安全治理与发展论坛现场 澎湃新闻记者 秦盛 摄“在生成式人工智能时代
亚马逊云推出AI代理功能,让AI成为助理
Amazon Bedrock的Agents(代理)功能将使公司能够构建可以自动执行特定任务的AI应用程序,例如预订餐厅,而不仅仅是得到去哪里吃饭的建议。 “很多人都如此聚焦于这些模型和模型的大小,但我认为真正重要的是如何利用它们构建应用,这也是今天发布代理(Agents)功能的一个重要原因。”
“氏无界·AI无疆”医疗AI成果转化行动启动
原文地址:http://news.sciencenet.cn/htmlnews/2024/1/516109.shtm
“AI成龙”遇冷,AI数字人在影视业不灵?
影视业成为“粗制滥造”的标签 近日,影视巨星成龙主演、大量使用了人工智能(AI)数字人技术的电影《传说》登陆大荧幕,却遭遇了票房与口碑的双失利。截至7月20日,豆瓣评分5.3,上映10天累计票房不到8000万元。显然,“AI成龙”遭到了冷遇。“AI成龙”本是《传说》这部电影的卖点。据介绍,为了剧情需
AI数据存储设备选型的6个关键要素
人工智能(AI)和机器学习将成为帮助企业利用其核心数字资产创造竞争优势的很重要工具之一。但在选购AI数据存储设备之前,企业必须考虑机器学习平台在获取、处理和保留数据时的一系列需求。我们首先需要研究一下机器学习软件使用的数据的生命周期,因为这有助于企业理解在为AI选择存储时应该考虑哪些因素。最
钟南山:大数据和AI提高新冠肺炎诊断
“大数据和人工智能极大提高了我们对新冠肺炎的诊断、预测和治疗水平。”于12日上午在福州举办的第三届数字中国建设峰会开幕式上,“共和国勋章”获得者、中国工程院院士钟南山在视频致辞中向在抗疫斗争中作出贡献的数字技术领域工作者表示感谢。 1936年10月出生的钟南山是福建厦门人。他说,“欢迎嘉宾们来
热界面新材料有望降低AI数据中心能耗
为了降低人工智能(AI)数据中心冷却成本,美国卡内基梅隆大学研究团队研制出一种创新性热界面材料。这种材料不仅实现了超低热阻,还通过改进散热大幅提升了冷却效率,降低了成本,性能超越了当前最先进的解决方案。相关论文发表于最新一期《自然·通讯》杂志。美国能源部的数据显示,目前,AI数据中心40%的用电量被
AI-耗电超出预期,未来-AI-进展或依赖能源突破
据 technews 报道,由于 AI 消耗电力将远远超出人们预期,OpenAI 执行长 Sam Altman 认为,未来 AI 发展需要寻求能源突破。Sam Altman在彭博社于达沃斯世界经济论坛(World Economic Forum)期间举行的座谈活动中谈道,对气候友善的能源,特别是核融合