发布时间:2023-02-02 17:05 原文链接: Nature子刊:基于Transformer的单细胞可解释注释方法

  近年来得益于单细胞测序技术的发展,我们可以以单细胞分辨率去理解生物学过程,包括发育,衰老和疾病等。细胞类型注释在单细胞数据分析过程中非常关键,传统的注释方法是将细胞降维到去除批次效应的低维空间,再进行一轮或多轮不同分辨率的聚类,最后根据不同细胞簇的标记基因人工的标注细胞类型。这一过程缺乏公认的标准,很大程度上受到研究人员偏好的影响。此外,移除批次效应的同时保留生物学差异也是单细胞研究的难点。幸而,随着技术进步,越来越多大规模单细胞图谱产生并公开发表,为后续研究提供了重要参考,但同时也产生了开发能够高效处理大规模数据的计算工具的需求。所以,统一标准的,高效的,生物学可解释的细胞类型标注工具对于单细胞分析结果的可重复性和科学研究的持续发展至关重要。

  近日,北京大学韩敬东课题组在 Nature Communications 期刊发表题为:Transformer for One Stop Interpretable Cell type Annotation 的研究论文。

  该研究开创性的提出了基于多头自注意力机制的深度学习方法TOSICA,实现了无需任何批次信息输入,使用个人电脑,在数十分钟内对百万级单细胞数据的细胞类型注释,并建立多层次可解释性的,批次不敏感的,高分辨率的细胞低维表示。

  与基于特征基因或相关性的机器学习方法相比,深度学习方法往往更适合处理大数据,更高效,更自动化。目前已经有大量基于自编码器(Autoencoder,AE)及其各种变体的细胞类型注释方法被开发,但受限于AE模型结构本身带来的弊端,此类方法大多伴随着特征提取过程中的信息损失,需要额外批次信息的辅助去除批次效应,以及无法在不牺牲模型深度或能力的情况下赋予隐空间生物学可解释性等问题。

  Transformer是一种先进的,基于多头自注意力(Multi-head self-attention)机制的深度学习模型,拥有强大的全局信息集成能力和可解释性,它在自然语言处理(NLP)和计算机视觉(CV)等领域都取得了突破性进展。受这些优良特性的鼓舞,TOSICA 开创性的将Transformer计算单元运用到scRNA-seq数据分析领域。该模型首先将细胞中基因的表达信息转化成基因集特征(Gene set token)并添加一维用于分类的分类头(Class token),由于基因集间的离散特性,相对于传统Transformer模型,TOSICA无需位置信息编码(position embedding)而直接进入多头自注意力层进行特征集成,最后仅将class token接入分类器中得到细胞分类结果。

  研究团队在多种不同的数据集中对模型的准确性进行了试验,包括疾病数据集,细胞类型不平衡数据集,发育数据集,复杂批次数据集,小鼠全组织图谱数据集。在横向比较的19种细胞类型注释器中,TOSICA综合准确性排名第一,运行时间随细胞数增加呈线性增加。值得注意的是,在规模大且细胞类型多的小鼠全组织图谱数据集和细胞类型不平衡数据集中,TOSICA的准确性分别领先第二名2%和6%。TOSICA还具有准确识别不同的新细胞类型,高灵敏鉴定过渡状态细胞,重构细胞动态轨迹,以及无需批次信息的批次效应去除等优秀特质。

  随后研究团队在泛癌浸润T细胞数据集,泛癌浸润髓系细胞数据集,COVID19疾病数据集,红斑狼疮(SLE)数据集中验证了TOSICA在解决实际科学问题中的优势和潜力。实现了疾病相关可解释动态轨迹重构,鉴定随年龄,疾病状态,癌症类型变化而活化的通路,细分功能的细胞亚群鉴定,以及跨不同疾病模型的细胞类型迁移。

相关文章

美国发布《单光子源和探测器通用术语和指标》

单光子的产生和检测已经从实验室研究逐步发展成为现代医学、量子处理、制造等领域的重要组成部分。单光子对于量子网络、单细胞的成像和测量、加密的量子“密钥”的分配以及纳米粒子的尺寸测定都很重要。为促进对该领......

被“真”单细胞光环掩盖的高通量分析

01、二代“真”单细胞蛋白质组学质谱:timsTOFUltra2023年6月5日,在第71届ASMS会议上,布鲁克公司重磅发布了timsTOFUltra,“真”单细胞蛋白质组学正式进入第二代。图1:成......

深圳先进院等建立单细胞轨迹推断技术

7月31日,中国科学院深圳先进技术研究院合成生物学研究所胡政课题组与厦门大学数学科学学院周达课题组合作,在《自然-生物技术》(NatureBiotechnology)上,发表了题为PhyloVeloe......

单细胞和空间组学技术在肝脏领域应用

近期,中国科学院上海营养与健康研究所李虹研究组在《肝脏病学杂志》(JournalofHepatology)上,发表了题为Single-cellandspatiallyresolvedtranscrip......

揭秘早期哺乳动物的发育过程

由于小鼠的易实验性和强遗传性,其一直是生物医学研究中使用广泛的动物模型。但是,胚胎学研究发现,小鼠早期发育的许多方面与其他哺乳动物不同,从而使有关人类发育的推论复杂化。英国剑桥大学等研究团队合作构建了......

肝脏生物学中单细胞和空间组学技术的成果与挑战

近期,中国科学院上海营养与健康研究所李虹研究组在《肝脏病学杂志》(JournalofHepatology)上,发表了题为Single-cellandspatiallyresolvedtranscrip......

基于液质联用的单细胞蛋白质组学研究进展

摘要    蛋白质是细胞功能的主要执行者,由于其无法在体外进行扩增,单细胞蛋白质组学技术相较单细胞基因组学和转录组学技术而言发展相对滞后。传统的蛋白质组学技术可......

西北大学团队新质谱法每天可分析1000个以上的单细胞

西北大学研究团队开发出一种基于电荷检测质谱技术的自顶向下(top-down)的单细胞蛋白质组学方法。该方法在本月发表于BioRxiv预印本上,科学家们用此方法可以每天检测1000多个单细胞中的完整蛋白......

世界上最快的生物运动背后的巨大蛋白

科学家们发现了Spirostomum的超快收缩的分子基础,Spirostomum是一种以令人难以置信的快速运动而闻名的毫米级单细胞原生动物属。利用从RNAi获得的高质量基因组,研究人员发现收缩结构,即......

开发出非标记液滴单细胞微生物生长表型筛选技术

微生物生长表型筛选是工业育种、酶定向进化和合成生物学等领域面临的限速步骤。精准的单细胞精度生长表型测量是突破上述瓶颈的关键。近日,中国科学院青岛生物能源与过程研究所单细胞中心开发了低成本、非标记的微型......