助力各行业发展,科学家为模型数据稀缺提出新思路

复旦大学计算机科学技术学院教授颜波团队提出了一种实现数据高利用率的基础模型训练框架,利用可控生成式人工智能(AI)生成合成数据,并采用“真实数据+合成数据”的混合数据模式训练基础模型,为解决数据稀缺难题提供了新思路。相关研究近日发表于《自然-生物医学工程》。基础模型是一种基于深度神经网络和自监督学习(SSL)技术,在大规模、广泛来源数据集上训练的AI模型。相较于只能完成特定任务的专用AI模型,基础模型的独特之处在于其强大的泛化能力。然而,大规模高质量数据的获取成本高昂、耗时漫长,还具有隐私泄露风险。在一些数据稀缺场景,传统基础模型训练方法效果受限,难以推广。研究团队将目光瞄准了AI合成数据,采用大量合成数据让模型学习,弥补现有真实数据的不足。团队在少量公开的真实医学数据上微调可控生成式AI,整合特定疾病知识,并以疾病概念作为条件生成大规模合成医学数据集。医学基础模型先后在合成数据和有限真实数据上使用SSL技术预训练,以初始化模型......阅读全文

塞曼效应原理和数据模型

塞曼效应证实了原子具有磁矩和空间取向量子化的现象,至今塞曼效应仍是研究能级结构的重要方法之一。正常塞曼效应可用经典理论给予很好的解释;而反常塞曼效应却不能用经典理论解释,只有用量子理论才能得到满意的解释。塞曼效应是物理学史上一个著名的实验。荷兰物理学家塞曼在1896年发现:把产生光谱的光源置于足够强

实验数据及模型参数的拟合方法

(1) 简述实验数据及模型参数拟合方法,并举2个例子。答:实验数据拟合方法:试验测得的数据常常是一组离散型序列,含有不可避免的误差,或者无法同时满足某特定的函数,那么我们用所逼近函数ψ(x)最优的靠近样点,此法称为拟合函数。模型参数拟合方法:在某一反应工程实验中,对测得的某一组数据,采用不同的模型去

合成数据能否让AI模型精确可靠?

人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:“在AI训练中,我们现在基本上耗尽了人类知识的累积总和。”之前研究也表明,人类生成的真实数据将在2到8年内消耗殆尽。鉴于真实数据日益稀缺,为满足AI的“胃口”,科技行业正转向使用合成数据。澳大利亚“对话”网站在本月稍早时间报道中指出,合成数据

合成数据能否让AI模型精确可靠?

  人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:“在AI训练中,我们现在基本上耗尽了人类知识的累积总和。”之前研究也表明,人类生成的真实数据将在2到8年内消耗殆尽。鉴于真实数据日益稀缺,为满足AI的“胃口”,科技行业正转向使用合成数据。  澳大利亚“对话”网站在本月稍早时间报道中指出,

合成数据能否让AI模型精确可靠?

人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:“在AI训练中,我们现在基本上耗尽了人类知识的累积总和。”之前研究也表明,人类生成的真实数据将在2到8年内消耗殆尽。鉴于真实数据日益稀缺,为满足AI的“胃口”,科技行业正转向使用合成数据。澳大利亚“对话”网站在本月稍早时间报道中指出,合成数据

生成式AI时代,大模型数据安全如何保障?

在生成式AI(人工智能)时代,数据安全的出路可能会是“用魔法打败魔法”,知识产权保护也可能要提前到token(字符串)层面。4月26日,在2024中关村论坛上,人工智能企业与学者就AI大模型的数据安全问题进行了讨论。中关村论坛数据安全治理与发展论坛现场  澎湃新闻记者 秦盛 摄“在生成式人工智能时代

污水处理厂模型数据如何转换?

目前污水处理厂的仪器仪表(PH仪表)配置和测量能力都比较差,模型组分中除了溶解氧,其余的模型组分浓度均不能进行测量。尤其是国内的污水处理厂,基本上只能够测量COD, SS,BOD5:等常规水质分析指标。针对这种情况,研究模型数据转换方法,实现难测的模型组分浓度与易测的常规水质指标之间的实时转换是非常

商业大数据技术助力优化大模型行业布局

发展新质生产力是推动高质量发展的内在要求和重要着力点,作为新质生产力的一大代表,大模型产业展现出强劲的增长势头。近日,合合信息旗下启信数据发布《2024新质生产力引领下十大重点产业趋势解读——大模型篇》,通过预测人工智能(AI)产业未来发展趋势,辅助政府精准开展产业招商、辅助银行机构高效发展产业金融

中国大数据“蒙面狂奔”-成熟盈利模型尚未建立

  形容中国大数据产业为“蒙面狂奔”,也许言过其实,但诸多桎梏确实摆在眼前。不管是依靠数据服务,还是行业应用定制,中国大数据产业仍需极大的人力消耗,成熟的盈利模型尚未建立。  于IT业内,大数据之火热程度,似乎无出其右者。当然,在其真正爆发前夜,也应该适时泼盆冷水。  谁能接触到数据  以我来形容中

如何选择适合逻辑斯蒂增长模型的数据集?

选择适合逻辑斯蒂增长模型的数据集时,可以考虑以下几个关键因素:时间序列数据:数据集应包含种群数量随时间的观测值,以捕捉种群的增长趋势。完整的增长阶段:最好涵盖种群从初始增长到接近稳定的整个过程,包括增长初期、加速增长期、减速增长期以及接近环境容纳量的阶段。足够的数据点:要有相对较多的数据点,以充分描

用AI生成数据训练AI或导致模型崩溃

科技日报北京7月25日电 (记者张梦然)《自然》24日正式发表的一篇研究论文指出了一个人工智能(AI)严重问题:用AI生成的数据集训练未来几代机器学习模型,可能会严重“污染”它们的输出,这被称为“模型崩溃”。研究显示,原始内容会在9次迭代以后,变成不相关的“胡言乱语”(演示中一个建筑文本最终变成了野

达观数据宣布研发垂直领域GPT模型“曹植”系统

自然语言处理进入“战国时代”,记者今天从专注于自然语言处理的人工智能企业达观数据获悉,该公司正基于多年文本智能技术积累和垂直领域场景业务经验,积极探索大语言模型(LLM)的实践,研发国产版GPT“曹植”系统,作为垂直、专用、自主可控的国产版ChatGPT模型,不仅能实现专业领域的AIGC智能化应用,

商业大数据技术助力优化大模型行业布局

发展新质生产力是推动高质量发展的内在要求和重要着力点,作为新质生产力的一大代表,大模型产业展现出强劲的增长势头。近日,合合信息旗下启信数据发布《2024新质生产力引领下十大重点产业趋势解读——大模型篇》,通过预测人工智能(AI)产业未来发展趋势,辅助政府精准开展产业招商、辅助银行机构高效发展产业金融

神奇数据模型定量CART细胞疗法

图片来源于网络  在弗吉尼亚联邦大学梅西癌症中心,科学家正在进行一项可能改变细胞免疫治疗方式的基础研究,该项目获得弗吉尼亚联邦大学梅西癌症中心(VCU Massey)试点资助。该项研究从精确的定量角度分析了免疫系统如何响应细胞疗法,从而寻求一种新的细胞免疫治疗方式,干细胞移植和CAR-T细胞疗法的协

用AI生成数据训练AI或导致模型崩溃

  《自然》24日正式发表的一篇研究论文指出了一个人工智能(AI)严重问题:用AI生成的数据集训练未来几代机器学习模型,可能会严重“污染”它们的输出,这被称为“模型崩溃”。研究显示,原始内容会在9次迭代以后,变成不相关的“胡言乱语”(演示中一个建筑文本最终变成了野兔的名字),这凸显出使用可靠数据训练

如何利用历史数据来确定生态模型逻辑斯蒂增长模型的初始值?

可以通过以下步骤利用历史数据来确定逻辑斯蒂增长模型的初始值:一、收集和整理历史数据确定数据范围:明确需要收集的历史数据的时间跨度和相关变量。例如,如果是预测某种产品的市场需求,需要收集该产品在过去一段时间内的销售量、市场份额、价格等数据。数据来源:从可靠的渠道获取历史数据,如企业内部的销售记录、市场

如何改进数据收集和分析以提高生态模型逻辑斯蒂增长模型的准确性?

以下是一些改进数据收集和分析从而提高逻辑斯蒂增长模型准确性的方法:增加数据收集的频率和时长更频繁地监测种群数量,以捕捉更细微的变化。延长数据收集的时间跨度,涵盖不同的季节、年份和环境条件,从而获取更全面的种群动态信息。提高数据测量的精度采用更精确的测量工具和技术,减少数据收集过程中的误差。对于难以直

《自然》封面:以AI生成数据训练AI,模型变傻?

大模型有许多“崩”的时候,但有一种崩溃叫做“自毁前程”——近日,《自然》发表在封面的一篇论文指出,用AI生成的数据集训练未来几代机器学习模型,可能会“污染”它们的输出。这项由英国牛津大学、剑桥大学、帝国理工学院、加拿大多伦多大学等多所高校联合开展的研究显示,原始内容会在数代内变成不相关的“胡言乱语”

《自然》封面:以AI生成数据训练AI,模型变傻?

  大模型有许多“崩”的时候,但有一种崩溃叫做“自毁前程”——  近日,《自然》发表在封面的一篇论文指出,用AI生成的数据集训练未来几代机器学习模型,可能会“污染”它们的输出。这项由英国牛津大学、剑桥大学、帝国理工学院、加拿大多伦多大学等多所高校联合开展的研究显示,原始内容会在数代内变成不相关的“胡

哈工大科研团队提出单细胞测序数据整合新模型

  近日,哈尔滨工业大学数学学院靳水林教授团队在单细胞测序数据建模与分析领域取得重要进展,解决了多生物来源数据整合建模的关键问题。研究成果发表在《美国国家科学院院刊》(PNAS)上。  单细胞数据整合旨在通过消除数据中的批次效应,以融合不同实验批次的单细胞测序数据,对胚胎发育、组织功能及疾病机制等研

香港理大研究团队以数据模型助力疫情防控

  【解说】香港新一波新冠疫情来势汹汹。日前,香港特区政府召开紧急会议并以“快、准、狠”措施,与奥密克戎病毒“竞赛”。在此关键时期,香港理工大学讲座教授史文中带领研究团队利用数据模型预测香港奥密克戎病毒的扩散情况,冀助力特区政府防控疫情。  【同期】香港理工大学讲座教授 史文中  我们现在介绍一下我

面向跨模态遥感数据的生成式预训练大模型发布

以深度学习为代表的人工智能技术已被应用于多种遥感图像解译任务中。遥感数据幅宽大、场景内容复杂,一幅标准景图像往往就可达数十亿像素,覆盖上万平方公里,与自然场景数据存在较大差异。大多数现有的深度神经网络模型是利用自然场景图像预训练的权重来进行初始化,在遥感数据解译任务上的性能和普适性有待进一步提升。中

香港理大研究团队以数据模型助力疫情防控

原文地址:http://news.sciencenet.cn/htmlnews/2022/1/472656.shtm 【解说】香港新一波新冠疫情来势汹汹。日前,香港特区政府召开紧急会议并以“快、准、狠”措施,与奥密克戎病毒“竞赛”。在此关键时期,香港理工大学讲座教授史文中带领研究团队利用数据模型

学者提出融合多模态数据的荔枝霜疫霉病预测模型

近日,华南农业大学电子工程学院(人工智能学院)高级实验师陆健强课题组首次提出了融合多模态数据的荔枝霜疫霉病预测模型,为荔枝霜疫霉病的精准预测提供了新的研究思路与方法。相关成果发表于《IEEE物联网期刊》(IEEE Internet of Things Journal)。荔枝是我国南方的重要经济作物,

3大遥感数据源接入“商汤地界”AI遥感大模型

原文地址:http://news.sciencenet.cn/htmlnews/2024/3/519533.shtm近日,商汤科技宣布携手国内头部遥感数据平台“吉林一号网”、“四维地球”、“星图地球”,升级了其“SenseEarth智能遥感云”平台的数据源。用户无需准备数据,即可通过“商汤地界”平台

新电子分子碰撞模型数据库助力国际核聚变研究

 澳大利亚研究人员在超级计算机帮助下创建的电子-分子碰撞模型数据库被国际热核聚变实验堆(ITER)采用,为ITER开发控制核聚变的关键诊断工具提供了帮助,朝最终实现受控核聚变又迈出一步。 核聚变是太阳等恒星的能量来源。在这些星体核心的超高温和高压下,氢原子核相互碰撞,聚合成更重的氦原子核,并在此

工业互联网平台数据、模型、工具开发项目”启动会召开

  2月27日,中国科学院计算机网络信息中心牵头的“2020年工业互联网创新发展工程——工业互联网平台数据、模型、工具开发项目”启动会在京召开。  计算机网络信息中心副主任周园春介绍中心基本情况,表示中心将全力保障项目实施。工业和信息化部、北京市经济和信息化局、中科院重大任务局有关负责人分别致辞,希

首个新冠疫苗动物实验数据出炉-恒河猴模型中安全有效

  国内已有2家机构的新冠病毒灭活疫苗进入I期临床试验阶段,它们的有效性和安全性如何?  4月20日,由中国医学科学院秦川团队领衔的团队,在预印本论文平台bioRxiv上传研究文章。这是目前为止公开报道的第一个新冠病毒(SARS-CoV-2)疫苗动物实验结果。  该疫苗可在小鼠、大鼠和非人类灵长类动

帕金森体外模型帕金森体外模型

体外培养的中脑多巴胺能神经元MPTP损伤模型l实验操作:实验采用胚胎龄14一16天的大鼠,剖子宫取胎,取胎鼠中脑腹侧区。可将多个胚胎来源的组织收集在一起,置Fl2培养基(Gibco)至35mm的培养皿中,以细剪刀剪碎。将2ml含0.125%的胰酶的F12加入到组织中,该混合物于37oC孵育10分钟后

助力各行业发展,科学家为模型数据稀缺提出新思路

复旦大学计算机科学技术学院教授颜波团队提出了一种实现数据高利用率的基础模型训练框架,利用可控生成式人工智能(AI)生成合成数据,并采用“真实数据+合成数据”的混合数据模式训练基础模型,为解决数据稀缺难题提供了新思路。相关研究近日发表于《自然-生物医学工程》。基础模型是一种基于深度神经网络和自监督学习