发布时间:2022-09-29 20:50 原文链接: 我国团队首创新算法,让细胞与计算机“对话”

细胞内有数以亿计的碱基、表达程序以及运行策略,而且各不相同。单细胞测序技术可解读单个细胞里的这些信息,但人工干预多、过度依赖人为选定的标记基因使得单细胞测序技术对细胞的注释稳定性较低。可以理解为,同一类细胞用不同的模型解析,结果不同,对一些特殊细胞“公说公有理婆说婆有理”的分析结果往往难以得到广泛认可。

解决上述问题的关键是减少人工干预。9月27日,《自然》子刊《自然机器智能》刊载了我国团队首创的单细胞转录组细胞类型注释算法。该算法可以将细胞中的信息转变为计算机能够理解和学习的“语言”,让计算机和细胞直接“对话”,减少人为因素影响。

细分细胞亚型,准确度提升7%

据算法研发团队腾讯人工智能实验室方面介绍,新算法,即scBERT模型,对最难分类的外周血单核细胞进行了分类,结果显示人工智能能够做到精准标注、注释极其难区分的两类细胞,例如能够准确区分CD8+细胞毒性T细胞和CD8/CD45RA+T细胞。研发团队成员告诉科技日报记者,“在极具挑战的外周血细胞亚型细分任务上,新算法相较现有最优方法的70%准确度再提升了7%。”

此外,团队还在已有的单细胞数据集中,将新算法的性能与其他算法进行了对比,这些数据集涵盖17个主要器官或组织、包含50多个细胞类型、超过50万个细胞。论文中显示,对于每个数据集,团队均采用了五倍交叉验证策略,以避免随机结果对结论的影响。结果显示,新算法对大多数数据集的分析结果在精确度和综合得分方面均表现优异。

研发人员表示,针对不同的单细胞分析任务和数据集解析任务,都会有不同的算法成为最佳算法,也就是说有的算法擅长某几类任务,有的算法擅长另几类任务,无法通用,而基于scBERT模型的新算法则表现了很强的通用性,在全部的数据集解析任务中均被列为最佳算法。

跨界使用“工具”,让机器读懂细胞语言

那么,新算法为什么能让机器通过学习读懂细胞中的复制、翻译、转录的语言呢?

相关研发人员解释,“我们首次将‘transformer’运用到单细胞转录组测序数据分析领域。 transformer这种架构从发明以来一直被用在自然语言处理领域,用于进行诸如机器翻译类的工作,成为比较通用的一个框架组件,但我们将它运用到了细胞注释领域。”

得益于对计算机处理人类语言和单细胞信息之间的共性理解,团队将已经成熟的人工智能架构进行创新性地“跨界”使用,大大提升了细粒度单细胞分子图谱的构建效率。

“跨界工具”让新模型赋予计算机读懂细胞活动的基础,但要想读得准、读得透、读得精,还需要基于大规模的语言预训练。

论文显示,为了解决来自不同项目、测序平台的数据难以互通有无的难题,“scBERT” 模型在预训练数据上没有做任何的降维或筛选处理,最大程度上保留数据本身的特性和信息,并学习了包含不同实验来源、批次和组织类型的单细胞数据,以保证模型理解“通用”的知识,不仅捕获单个基因的表达信息还理解基因间的协作。

相关文章

最大神经形态计算机研制成功

HalaPoint神经形态计算机由英特尔的Loihi2芯片提供动力。据英国《新科学家》杂志网站17日报道,英特尔公司研制出世界上最大的神经形态计算机HalaPoint。它包含11.52亿个人造神经元,......

最大神经形态计算机研制成功

据英国《新科学家》杂志网站17日报道,英特尔公司研制出世界上最大的神经形态计算机HalaPoint。它包含11.52亿个人造神经元,分布在1152个Loihi2芯片上,每秒能进行380万亿次突触操作。......

新一代550计算量子比特相干光量子计算机发布

4月18日,新一代550计算量子比特的相干光量子计算机—“天工量子大脑550W”及开物SDK等核心研究成果在京发布。由玻色量子研发的“天工量子大脑550W”在国内首次实现550节点全连接可编程的Max......

南大科学家发现“返老还童”因子

南京大学生命科学学院教授张辰宇、陈熹、王延博,医学院教授方雷等人通过研究揭示了一项重大发现:年轻血液中的小细胞外囊泡(sEVs)具有显著延长寿命、恢复整体生理功能以及逆转与年龄相关的退化变化的能力。4......

中国“本源悟空”三代超导量子计算机全球访问量跃升至500万里程碑

本源量子公司宣布,其最新研发的“本源悟空”超导量子计算机自面世以来全球访问量已超过500万次。自1月6日上线以来,“本源悟空”已经为全球用户提供了三个月的大规模、稳定自主量子算力服务,标志着中国正式步......

谱系细胞单克隆自动化获取研究获进展

近日,中国科学院广州生物医药与健康研究院(简称广州健康院)研究员张骁团队提出一种基于结构微流体创新的谱系细胞单克隆自动化获取策略,在体细胞重编程过程出现的复杂谱系中实现了对特定谱系的单克隆性细胞的自动......

地球上已知最小动物是什么?

一种黏体动物(传播孢子阶段)的放大图,这种动物可寄生在鲑鱼和鳟鱼身上。图片来源:CABI数字图书馆网站科技日报讯(记者刘霞)大多数动物爱好者都知道蓝鲸是已知最大的动物,但迄今已知最小的动物是什么呢?据......

2024年度合成细胞亚洲研讨会在深召开

4月2日至3日,由中国科学院深圳先进技术研究院和亚洲合成生物学协会(ASBA)共同主办的2024年度合成细胞亚洲研讨会在深圳光明生命科学园成功举办。作为该领域内的一次重要学术盛会,研讨会旨在促进合成细......

缓步动物蛋白或助人类抗衰老

科技日报北京4月1日电 (记者刘霞)据美国趣味科学网站3月30日报道,美国怀俄明州立大学分子生物学系科学家实验研究发现,从微型缓步动物身上提取的蛋白质减缓了人类细胞新陈代谢的速度,表明这些蛋......

中国从此“有了”计算机

■本报记者甘晓实习生李贺代码0和1,是现代信息世界的源头。1958年8月1日,对于我国“二进制”时代来说,就是那个从“0”到“1”的起点。那一天,位于北京中关村的中国科学院计算技术研究所(以下简称计算......