国家生物信息中心合作发布面向流感病毒的基因组语言模型
近日,国家生物信息中心正式发布了面向流感病毒的基因组语言模型Influ-BERT。该模型基于Transformer架构,针对流感病毒基因组特征进行了深度优化,为流感病毒亚型鉴定、致病性预测等应用提供了一种高效、智能的计算解决方案。甲型流感病毒具有宿主范围广、抗原变异频繁等特点,对全球公共卫生构成持续威胁。传统的亚型鉴定方法在处理低频亚型或片段缺失数据时存在局限性。为此,研究团队收集并整合了约90万条流感病毒基因组序列构建专用语料库,以Transformer架构为核心,开发了定制化的Byte Pair Encoding(BPE)分词器,并针对词表大小进行专门优化。通过实施领域自适应预训练与任务特定微调的分阶段策略,Influ-BERT成功填补了通用基因组模型与流感特定领域知识之间的语义鸿沟,实现了对流感病毒基因组的精准建模。在性能评估中,Influ-BERT展现出优于传统的机器学习算法和通用基因组大模型的表征学习能力,实现了低频亚......阅读全文
清华团队与合作者推出大语言模型RealSafeR1
2月23日,清华大学与瑞莱智慧联合团队推出大语言模型RealSafe-R1。研发团队代表介绍说,实验数据表明RealSafe-R1安全性提升显著,“安全增强版DeepSeek”可为更多应用提供可靠坚实基座。连日来,国产开源大模型DeepSeek的优异表现备受关注,其在自然语言处理和多任务推理方面的能
崖州湾国家实验室联合发布首个种业大语言模型
人工智能技术能给“农业芯片”带来怎样的助力?国内首个种业大语言模型的推出,或许可以给出全新的探索路径。据崖州湾国家实验室最新发布消息,崖州湾国家实验室精准设计与智造团队联合中国农业大学、上海人工智能实验室共同发布首个种业大语言模型“丰登” ,英文名称Large Language Model for
微调大语言模型,科学家开发化学文本挖掘新方法
6月7日,中国科学院上海药物研究所研究员郑明月课题组在五项化学文本挖掘任务上对多个大语言模型的能力进行了全面综合的探究,展现了微调大语言模型成为一种通用高效的生成式文本挖掘方法,为大模型的落地应用提供参考。相关研究发表于《化学科学》。 近两年,以ChatGPT为代表的大语言模型(LLM)引领了人工智
日本将开发更强日语能力的“大语言模型”人工智能技术
据共同社消息,日本东北大学和日本东京工业大学等团队计划开发一种更强日语能力的“大语言模型”,作为生成式人工智能(AI)的基础技术。该团队将利用理化学研究所的超级计算机“富岳”学习大量数据,并将在本年度内逐步公开。这一技术的开发将使国内企业和研究人员能够为自己的公司的服务或研究而自行改良。生成式AI可
360智脑通过中国信通院可信AIGC大语言模型功能评估
原文地址:http://news.sciencenet.cn/htmlnews/2023/6/502739.shtm6月12日,360智脑的360GPT-S2-V8型号产品获得了中国信息通信研究院(以下简称“中国信通院”)“可信AIGC大语言模型基础能力”评估报告(以下简称“报告”),报告显示必选项
科研团队成功利用人工智能蛋白语言模型揭示生命演化奥秘
为什么不同生物在适应相似环境时,会独立演化出相似的功能?一项最新研究从蛋白质的“高阶特征”层面揭示了这一生命演化奥秘的重要机制。 这项研究由中国科学院动物研究所邹征廷研究员团队完成,成功利用人工智能领域的蛋白语言模型,揭示了蛋白高阶特征在功能适应性趋同演化中的关键作用,为理解生命演化之谜提供了
崖州湾国家实验室联合发布首个种业大语言模型“丰登”
4月28日,崖州湾国家实验室精准设计与智造团队与中国农业大学、上海人工智能实验室共同发布首个种业大语言模型“丰登”。该模型集成了先进的人工智能技术与大数据分析,对海量来自不同渠道的育种科研文献、技术书籍及网络资源进行深度解析和索引,在品种选育过程、农艺性状描述、栽培技术推荐和历史推广区域查询等四大应
华大基因发布大语言模型驱动新方法,助力罕见病精准防控
人工智能(AI)技术随着科技的飞速发展已广泛渗透至多个领域。在生命健康层面,AI凭借其独特优势在推动基因组医学的创新发展中扮演着重要角色,尤其是在罕见遗传疾病诊断中展现出了巨大的潜力。然而,利用基因测序技术对海量的基因组变异进行大规模、高效精准的致病因素识别,仍然是一个挑战。因此,基于基因检测大
提高大语言模型可信度,新方法助生成式AI破除“幻觉”
人工智能(AI)在给出准确答案的同时,也会有一些“胡乱输出”令人难辨真假,这被称为“幻觉”(hallucination)。而新一期《自然》杂志发表的一项研究报道了一种新方法,能检测大语言模型(LLM)产生的“幻觉”,即该方法能测量生成回答的含义的不确定性,或能提升LLM输出答案的可靠性。类似Chat
酶标仪语言界面
通常进口的中高档酶标仪人机对话多采用英文。这对于某些基层实验室可能会存在语言方面的困难,从而难以最大限度地发挥酶标仪的作用。为解决这方面的问题,已有一些酶标仪采用了中文界面。这样就大大方便了广大基层实验室技术人员的使用。 综上所述,尽管酶标仪的发展极为快速,种类繁多,功能也不断加强,但其最根本
基因组测序发现鸟类和人类本质上具有相同的语言基因
北京时间12月15日消息,据科学日报的报道,美国杜克大学神经学生物学家埃里希·贾维斯(Erich Jarvis)的办公室里全是鸟类书籍,但他成为飞行类动物家族树专家并非因为对有羽毛鸟类的独特兴趣,而是对人类大脑如何理解和产生言语的着迷导致他开始研究鸟类。“我们早已知道鸟类的歌唱行为类似于人类的言
TrendForce:机器人大语言模型市场规模预估于2028年破千亿美元
根据TrendForce集邦咨询最新研究,随着人型机器人迈向高度系统整合,并有望从工业场景走进家庭生活,前端的AI模型训练将更为关键,以满足更多后端理解与互动需求。预估含AI训练、AIGC解决方案在内的全球机器人大型语言模型市场,有望于2028年超越1000亿美元,且从2025至2028年之年复
科学家开发出流感病毒预测模型-有助应对新变种病毒
流感病毒每年都有新变化,如果能提前预测下一次流感病毒的进化方向,就能提前研制出更有针对性的疫苗。英国新一期《自然》杂志就刊登了这样一项研究成果,一种新的预测模型有望帮助人们预判未来流感病毒的特征。 流感病毒的进化是个复杂的过程,其本质是不同毒株间的相互竞争,目的就是能更有效地感染人类,而如
首个百亿级可部署基因组基础模型发布
10月23日,在第二十届国际基因组学大会上,华大生命科学研究院与之江实验室联合发布了首个百亿参数可部署的基因组通用基础模型(Genos)。这一针对人类基因组深度优化的基因组基础模型,可支持高达百万碱基对的超长上下文分析,并实现单碱基分辨率的精准识别,有望为临床疾病诊断、个人基因组解读及前沿科学研究带
相分离调控线粒体基因组空间秩序的模型
中国科学院广州生物医药与健康研究院研究员刘兴国团队联合清华大学、南方科技大学、北京大学、香港中文大学等科研人员,研究发现线粒体基因组与其结合蛋白,利用生物分子最基础的自发聚集的相分离性质,调控线粒体类核的组装以及转录的复杂过程,构建了首个相分离调控线粒体基因组结构与功能的模型。相关研究10月28日在
中科院心理所基于社交媒体语言表达心理幸福感感知模型
积极心理健康受到各个领域的关注,心理幸福感可以在一定程度上反映个体的心理健康水平。然而,民众的心理幸福感测量很难大规模实时评估。社交媒体的流行使非侵入性方式感知和了解在线用户的心理幸福感成为可能。中国科学院行为科学重点实验室朱廷劭研究组基于社交媒体用户的语言表达建立心理幸福感预测模型,并通过心理问卷
AI模型“Evo”:揭开基因组“密码全书”新篇章
《科学》杂志15日发布了一项突破性研究成果:美国斯坦福大学Arc研究所团队利用人工智能(AI),开发出一种大规模基因组基础模型“Evo”,翻开了生命的“密码全书”。该模型采用先进架构,能够以前所未有的精度,解析和设计从分子层面到整个基因组级别的DNA、RNA及蛋白质序列。其不仅能够预测突变对细胞内部
提出相分离调控线粒体基因组空间秩序的模型
中国科学院广州生物医药与健康研究院研究员刘兴国团队联合清华大学、南方科技大学、北京大学、香港中文大学等科研人员,研究发现线粒体基因组与其结合蛋白,利用生物分子最基础的自发聚集的相分离性质,调控线粒体类核的组装以及转录的复杂过程,构建了首个相分离调控线粒体基因组结构与功能的模型。相关研究1
我科学家建立了一个探索流感病毒演化的计算机新模型
中科院生物物理研究所蒋太交研究组建立了模拟流感演化的计算机新模型,即网络模型。他们的研究表明利用网络模型可以揭示流感演化及流行病学中的很多重要特征。此项研究成果于11月21日在线发表于Genome Research杂志。 流感的基因组相关性网络的结构演化反映了人流感抗原性改变的规律 了解流感病毒
一天内筛选超1亿种化合物,AI语言模型“提速”药物发现
美国麻省理工学院和塔夫茨大学研究人员设计出一种基于大型语言模型(如ChatGPT)的人工智能算法,这种称为ConPLex的新模型可将目标蛋白与潜在的药物分子相匹配,而无需执行计算分子结构的密集型步骤。相关论文发表在最新一期《美国国家科学院院刊》上。 图片来源:物理学家组织网使用这种方法,研究人员可
Nature-Microbiology-:成功绘制出甲型流感病毒基因组的结构
近日,一项刊登在国际杂志Nature Microbiology上的研究报告中,来自英国、澳大利亚和美国的科学家们通过研究绘制出了甲型流感病毒基因组的结构,文章中,研究人员描述了他们对甲型流感病毒的遗传分析以及其基因组的特性。 随着时间推移,微生物学家们和卫生官员都非常担心未来致命性的流感病毒会
李彦宏:自然语言将成为新的通用编程语言
“未来,自然语言将成为新的通用编程语言,你只要会说话,就可以成为一名开发者。”4月16日,百度创始人、董事长兼首席执行官李彦宏在Create 2024百度AI开发者大会上发表的演讲指出,“AI正在掀起一场创造力革命,未来开发应用就像拍个短视频一样简单,人人都是开发者。”活动现场 主办方供图 现场,
1500种语言可能消失
基于一个类似于预测物种损失的新模型,澳大利亚研究团队分析了6511种仍在使用或已停止使用的语言后得出结论说,到本世纪末,1500种语言将不再被使用,这相当于每个月有一种语言消失。这项新研究还确定了使语言处于高风险处境的原因,包括更密集的公路网、更高的教育水平甚至气候变化等。 论文合著者、澳大利亚国
清华大学药学院学者开发基于蛋白质语言模型的结构与功能预测方法
研究背景 随着计算生物学的快速发展,我们正处于一个由数据驱动的生物信息学新时代。蛋白质,作为生命活动的执行者,其结构和功能预测一直是科学研究的核心问题。近年来,深度学习技术的突破性进展,尤其是蛋白质语言模型的兴起,为研究者们提供了一个全新的视角来了解蛋白质在生命体内所扮演的角色。 蛋白质语言
科学家绘制出甲型流感病毒基因组结构图
甲型流感病毒已经对人类健康构成重大威胁。近日,发表在Nature Microbiology上的一项研究,一个来自英国、澳大利亚和美国的国际科学家团队绘制出甲型流感病毒基因组的结构图,并描述了他们对病毒的遗传分析以及所了解到的情况。 随着时间的推移,微生物学家和各国的卫生官员都担心未来致命性流感
科学家绘制出甲型流感病毒基因组结构图
甲型流感病毒已经对人类健康构成重大威胁。近日,发表在Nature Microbiology上的一项研究,一个来自英国、澳大利亚和美国的国际科学家团队绘制出甲型流感病毒基因组的结构图,并描述了他们对病毒的遗传分析以及所了解到的情况。 随着时间的推移,微生物学家和各国的卫生官员都担心未来致命性流感
新的谷氨酸棒杆菌基因组规模代谢网络模型
谷氨酸棒状杆菌(Corynebacterium glutamicum),是重要的工业微生物之一,被广泛应用于氨基酸、有机酸、维生素和生物能源等的工业化生产。作为工业生产菌种,谷氨酸棒杆菌具有耐受高强度发酵的鲁棒性、环境适应性强等特点。该菌的基因组测序已完成,遗传操作系统正在被不断地完善。目前,谷
基因组密码被解锁:深度学习模型破解非编码区奥秘
人类基因组中超98%的遗传变异位于非编码区,这些变异通过调控染色质可及性、三维构象、剪接加工等多种分子机制影响基因表达,最终导致疾病发生。由于调控机制的复杂性和细胞类型特异性,目前解读非编码变异的分子效应仍是重大挑战。现有深度学习模型在预测功能基因组特征时,往往在输入序列长度与预测分辨率之间难以兼顾
信了近50年的教材知识,竟然是错的!
教科书上有关“流感病毒”的部分需要翻新了。 当一株流感病毒与另一株病毒混合进入(co-mingles)一个细胞内时,“漏洞”使病毒能够交换遗传物质,从而创造一株新流感病毒。了解这些漏洞和它们之间的相互作用有助于流行病的更好预测和破坏流感病毒的新方法开发。 文章通讯作者、微生物学和分子遗传学助
没有语言,蝴蝶也会“交谈”?
一只小小的蝴蝶,生活在一片热带雨林中,它如此美丽,翅膀闪耀着玻璃般的光泽。但在雨林中,有太多这样的同类了,没有语言的它如何找到真爱,避免与那些看起来一模一样的“亲戚”们混淆呢?一个来自多国的科学家团队,包括英国惠康桑格研究所、厄瓜多尔阿马佐尼卡伊基亚姆地区大学和巴西坎皮纳斯大学的专家们,以玻璃翅蝶为