单细胞检测技术的发展为我们理解复杂生命体中细胞的组成与各自功能及变化过程提供了强有力的工具。基于单细胞基因表达谱数据,我们可以窥探发育过程中细胞内的调控变化,发现肿瘤微环境中的各类细胞及它们的细胞间交流,理解器官组织中复杂多样的细胞类型。现有单细胞研究是一个从整体到个体,再由个体特征重建整体的过程。在这个过程中,有一些非常有意思的问题是我们希望通过单细胞数据加以理解的,比如,某个组织中,某类细胞的发育生成过程;在不同条件下,细胞的改变过程和命运等等。因此,我们需要通过特定的分析手段实现对数据的分类和还原,并通过数据来勾画出细胞间的变化过程。在这样的背景下,拟时间序列分析(Pseudotime分析)为我们提供了来解决该问题的工具。

拟时间序列分析(Pseudotime分析)的字面意思是通过构建细胞间的变化轨迹来重塑细胞随着时间的变化过程。从具体的分类分析和复杂程度来说,可以分为细胞轨迹分析和细胞谱系分析。

细胞轨迹分析指的是简单模型的细胞变化轨迹分析,通常指的是细胞沿着某个过程有特定化的变化终点,轨迹具有简单树状结构,一端是“根”,另一端是“叶”;细胞谱系分析通常指的是某类祖源细胞,在特定条件下,有多个发育轨迹和命运,变化过程类似复杂树状分支变化过程。因此,简单细胞轨迹分析和细胞谱系分析原理上类似,复杂程度有所区别,当然,基于此的分析手法和方式也会有所不同。

近期单细胞检测技术的发展也激起了基于单细胞数据分析技术的爆发。从现有发表研究来看,已有不同类型的分析方法用于拟时间序列分析。我们对现有常用的分析策略整理如下图:

图1 单细胞拟时间序列分析不同策略与流程

以下我们以Monocle软件的拟时间分析为例,以简单模型来了解下通过该分析我们能拿到什么样的结果。

拟时间序列分析包括基因选择,数据降维和在拟时间内排列细胞三个基本步骤:

1.选择基因 

推断单细胞轨迹是一个机器学习问题。第一步是选择机器学习方法输入的基因。这叫做特征选择,它对轨迹的形状有很大的影响。算法通过检查这些基因在细胞群中的表达模式来对细胞进行排序。寻找以“有趣”即不只是嘈杂方式变化的基因,并利用这些基因来构造数据。这些基因将产生一个健壮、准确和具有生物学意义的轨迹。

2.数据降维

一旦细胞有序排列,我们就可以在降维空间中可视化轨迹,所以首先选择用于细胞排序的基因,然后使用反向图嵌入算法对数据进行降维。

3.在拟时间内排列细胞 

通过将表达数据投射到更低的维度空间,通过机器学习描述细胞如何从一种状态过渡到另一种状态的轨迹。假设轨迹具有树状结构,一端是“根”,另一端是“叶”。尽可能地将最佳树与数据匹配起来。这项任务被称为“歧管学习”,在生物过程的开始阶段,细胞从根部开始,沿着主干前进,直到到达第一个分支如果有的话。然后,细胞必须选择一条路径,沿着树走得越来越远,直到到达一片叶子。一个细胞的伪时间值是它回到根的距离。

通过该过程,我们就能得到以不同分类细胞为分类的细胞轨迹图:

图2 细胞轨迹图

从上述的轨迹图中,我们基本可以把这些细胞的轨迹途径分为5个不同的阶段(State),因此,可以用阶段(State)对轨迹图进行绘制,以明确轨迹过程阶段:


相关文章

Nature子刊:用于百万级生物样本库的基因组序列分析工具

人类的疾病易感性和生理特征等常见性状的差异,往往由DNA序列变化造成,这些DNA片段缺失、增加、异位等变化被统称为遗传变异。全基因组关联研究(Genome-WideAssociationStudy,G......

我国科学家参与番茄全基因组研究获重大进展

由来自中国、美国、荷兰、以色列等14个国家的300多位科学家组成的“番茄基因组研究国际协作组”,历时8年多的艰苦努力,于近日完成了对栽培番茄全基因组的精细序列分析。今天,国际权威学术期刊《自然》以封面......

两项尖端分子技术联合:发明新HIV筛选方法

尽管抗HIV药物鸡尾酒在全球减少了HIV相关死亡病例并在一定程度上改善了HIV患者的生命治疗,但是目前越来越多的药物抗性HIV病毒株对目前的治疗药物效果产生威胁。现在,来自美国宾州大学医学院的研究人员......

牙鲆碱性磷酸酶cDNA序列分析与蛋白质高级结构预测

摘要为研究碱性磷酸酶(EC3111311;alkalinephosphatase,ALP)在牙鲆(ParalichthysOlivaceus)发育和变态中的作用,采用RACE的方法克隆了牙鲆ALP基因......

蛋白质序列复杂性简化与非比对序列分析

摘要非比对序列分析是最新发展的一种序列分析方法,具有计算效率高并适用于分析低相似性的序列,已成功用于DNA的序列分析中.但是由于蛋白质序列的复杂性,非比对序列分析对于蛋白质序列分析的准确度却不高.用将......

蛋白质序列复杂性简化与非比对序列分析

摘要非比对序列分析是最新发展的一种序列分析方法,具有计算效率高并适用于分析低相似性的序列,已成功用于DNA的序列分析中.但是由于蛋白质序列的复杂性,非比对序列分析对于蛋白质序列分析的准确度却不高.用将......

极端污染环境草甘膦抗性菌株的分离、鉴定及特性

摘要:【目的】筛选高抗草甘膦菌株并对其进行鉴定和特性研究。【方法】从草甘膦极端污染土壤中分离高抗草甘膦菌株,并检测其草甘膦耐受能力,最适生长pH和抗生素抗性。通过生理生化特征和分子生物学特征的测定对该......

猪链球菌精氨酸脱亚氨酸酶序列分析及其PCR检测

摘要:对9株猪链球菌2型重庆分离株的精氨酸脱亚氨酸酶基因进行克隆测序,结果表明该基因长度为1231bp,与Genbank发表的该基因序列相比,核苷酸同源性高于99%,推导的氨基酸同源性高于96%。根据......

蛋白质一级结构分析

方法:质谱法原理:采用质谱技术通过对样品与其理论序列的匹配和肽段覆盖率来确证样品的序列。仪器:FinniganLCQDecaXp/FinniganLTQ样品要求:挥发性无机盐<20mM;不挥发性......