发布时间:2020-03-09 17:59 原文链接: 基因表达数据分析主成分分析PCA

  • DNA微阵列基因表达数据分析

 

主成分分析 ( Princ ipal Component Analysis , PCA ) 是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间。给定 n 个变量的 m 个观察值,形成一个 n ′ m 的数据矩阵, n 通常比较大。对于一个由多个变量描述的复杂事物,人们难以认识,那么是否可以抓住事物主要方面进行重点分析呢?如果事物的主要方面刚好体现在几个主要变量上,我们只需要将这几个变量分离出来,进行详细分析。但是,在一般情况下,并不能直接找出这样的关键变量。这时我们可以用原有变量的线性组合来表示事物的主要方面, PCA 就是这样一种分析方法。PCA 的目标是寻找 r ( r

 

基因表达数据分析主成分分析 PCA

 

降到

 

基因表达数据分析主成分分析 PCA

 

在进行基因表达数据分析时,一个重要问题是确定每个实验数据是否是独立的,如果每次实验数据之间不是独立的,则会影响基因表达数据分析结果的准确性。对于利用基因芯片 所检测到的基因表达数据,如果用 PCA 方法进行分析,可以将各个基因作为变量,也可以将实验条件作为变量。当将基因作为变量时,通过分析确定一组“主要基因元素”,它们能够很好地说明基因的特征,解释实验现象;当将实验条件作为变量时,通过分析确定一组“主要实验因素”,它们能够很好地刻画实验条件的特征,解释基因的行为。下面着重考虑以实验条件作为变量的 PCA 分析方法。假设将数据的维数从 R N 降到 R 3 ,具体的 PCA 分析步骤如下:

(1) 第一步计算矩阵 X 的样本的协方差矩阵 S :


 

基因表达数据分析主成分分析 PCA

 

(2) 第二步计算协方差矩阵S的本征向量 e1,e2,…,eN的本征值

 

基因表达数据分析主成分分析 PCA

 

, i = 1,2,…,N 。本征值按大到小排序:

 

基因表达数据分析主成分分析 PCA

 

; (3)第三步投影数据到本征矢张成的空间之中,这些本征矢相应的本征值为

基因表达数据分析主成分分析 PCA

。现在数据可以在三维空间中展示为云状的点集。

对于 PCA ,确定新变量的个数 r 是一个两难的问题。我们的目标是减小 r ,如果 r 小,则数据的维数低,便于分析 ,同时也降低了噪声,但可能丢失一些有用的信息。究竟如何确定 r 呢?这需要进一步分析每个主元素对信息的贡献。

基因表达数据分析主成分分析 PCA

代表第 i 个特征值,定义第 i 个主元素的贡献率为:

基因表达数据分析主成分分析 PCA

(8-45)

前 r 个主成分的累计贡献率为:

基因表达数据分析主成分分析 PCA

(8-46)

贡献率表示所定义的主成分在整个数据分析中承担的主要意义占多大的比重,当取前 r 个主成分来代替原来全部变量时,累计贡献率的大小反应了这种取代的可靠性,累计贡献率越大,可靠性越大;反之,则可靠性越小。一般要求累计贡献率达到 70% 以上。

经过 PCA 分析,一个多变量的复杂问题被简化为低维空间的简单问题。可以利用这种简化方法进行作图,形象地表示和分析复杂问题。在分析基因表达数据时,可以针对基因作图,也可以针对实验条件作图。前者称为 Q 分析,后者称为 R 分析。

表 8.1 是对酵母 6000 多个基因在 7 个时间点表达数据的 PCA 分析结果,每列数据代表主元素的系数。从表中可以看出,前两个主元素反应了 90% 以上( 76.9%+13.5% )的变化,而前三个主元素反应了 95% 以上的变化,因此取前两个主元素即可。 图 8.6 是对 7 个特征值的图示。

 

基因表达数据分析主成分分析 PCA

 

 

基因表达数据分析主成分分析 PCA

 

图 8.7 是前三个主元素系数变化图。第 1 个主元素代表各个基因表达加权平均,除第 1 个时间点外,其它所有系数都为正值( 见图 8.7(a) )。如果某个基因对应此主元素的值为较大的正数,则基因表达上调,如果此主元素的值为较大的负数,则基因表达下调。第 2 个主元素表示在时间序贯中基因表达的变化,除第 1 个时间点外,其它系数逐个增大( 见图 8.7(b) )。如果某个基因的表达量随时间不断增加,则此主元素的值为正;如果表达量随时间不断减小,则此主元素的值为负。第 3 个主元素系数变化曲线为抛物线形( 见图 8.7(c) )。


 

基因表达数据分析主成分分析 PCA


相关文章

华南理工团队最新成果丰富酵母基因表达

4月30日,华南理工大学食品科学与工程学院黄明涛教授课题组对酿酒酵母中的未折叠蛋白响应元件(UPRE)进行了改造,并应用于基因表达的动态调控。该成果以“TailoredUPRE2variantsfor......

最广泛灵长类动物大脑研究结果发布

科技日报北京4月1日电 (记者张梦然)美国马萨诸塞大学阿默斯特分校生物学家领导的跨学科小组最近发表了一项史无前例的研究:调查了18种灵长类动物的基因表达与大脑进化之间的联系。研究成果发表在《......

分子细胞卓越中心揭示人线粒体tRNAt6A修饰对线粒体基因表达调控的多重作用

1月16日,中国科学院分子细胞科学卓越创新中心研究员周小龙、王恩多团队在《核酸研究》(NucleicAcidsResearch)上,发表了题为Multifacetedrolesoft6Abiogene......

北京基因组所揭示半甲基化在基因表达调控中的作用

DNA甲基化是最早发现的表观遗传标记之一,在真核细胞基因表达调控中发挥重要作用。随着DNA甲基化检测技术的进步,研究发现DNA甲基化具有完全甲基化和半甲基化两种状态,以及可以稳定遗传的半甲基化修饰。关......

分子植物卓越中心揭示细胞分裂素快速激活基因表达的分子机制

细胞分裂素(cytokinin)是一种重要的植物激素,在植物的生长发育中扮演着多种角色,包括维持分生组织、促进维管组织分化、调控叶片衰老和促进再生等。以往研究表明,细胞分裂素的信号传递类似于细菌的双组......

Science:新研究揭示短串联重复序列如何影响基因表达

几十年来,科学家们已经知道,“垃圾DNA(junkDNA)”实际上起着至关重要的作用:尽管基因组中的蛋白编码基因提供了构建蛋白的蓝图,但是基因组中的一些非编码部分,包括以前被认为是“垃圾DNA”的基因......

《科学》等多期刊连发21项研究,迄今最全人脑细胞图谱发布!

12日,同时发表在《科学》《科学进展》和《科学·转化医学》杂志上的21项研究,公布并详细解释了迄今为止最全面的人类脑细胞图谱。这些研究对3000多种人类脑细胞类型进行了特征分析,阐明了某些人类脑细胞与......

空间细胞类型组分解析新算法被提出!

8月7日,中国科学院动物研究所翟巍巍/马亮团队在《自然-通讯》(NatureCommunications)上,发表了题为SONARenablescelltypedeconvolutionwithspa......

武汉大学等团队发现急性肾损伤进展的调控新机制

急性肾损伤(AKI)的发病率和死亡率很高。肾损伤分子-1(KIM1)在肾小管损伤后显着上调,并作为各种肾脏疾病的生物标志物。然而,KIM1在AKI进展中的确切作用和潜在机制仍然难以捉摸。2023年7月......

研究发现细胞衰老可能与基因表达错误率上升有关

美国研究人员最新发现,细胞内部基因表达的错误率越来越高,无法正常合成蛋白质,可能是细胞停止分裂、陷入衰老状态的原因。这项成果由美国国家老龄问题研究所等机构的人员取得,有望为研发抗衰老药物提供新靶点,相......