基因表达谱数据聚类分析相关内容分析测试百科网wiki版

发布时间：2020-03-09 19:07 原文链接：基因表达谱数据聚类分析相关内容

DNA微阵列基因表达数据分析

对于基因表达谱数据的分析是生物信息学的研究热点和难点。转化为数学问题，分析任务是从数据矩阵 M 中找出显著性结构，结构类型包括全局模型 (model) 和局部模式 (pattern) 。对基因表达谱数据的分析是数据挖掘问题，所采用的方法包括通过可视化进行探索性数据分析( Exploratory Data Analysis )、描述建模 (descriptive modeling) 、分类、聚类、回归和机器学习等。

基因表达谱分析所采用的常用方法是聚类，其目的就是将基因分组。从数学的角度，聚类得到的基因分组，一般是组内各成员在数学特征上彼此相似，但与其它组中的成员不同。从生物学的角度，聚类分析方法所隐含的生物学意义或基本假设是，组内基因的表达谱相似，它们可能有相似的功能。

然而，产物有相同功能的编码基因(例如对其它蛋白质有磷酸化作用)，不一定共享相似的转录模式。相反，有不同功能的基因可能因为巧合或随机扰动而有相似的表达谱。尽管有许多意外的情况存在，大量功能相关的基因的确在相关的一组条件下有非常相似的表达谱，特别是被共同的转录因子共调控的基因，或者产物构成同一个蛋白复合体，或者参与相同的调控路径。因此，在具体的应用中，可以根据对相似表达谱的基因进行聚类，从而指派未知基因的功能。

聚类分析是模式识别和数据挖掘中普遍使用的一种方法，是基于数据的知识发现的有效方法，特别适用于模式分类数不知道的情况。聚类分析是一种无监督学习方法，不需要任何先验领域知识，它根据数学特征提取分类标准，对数据进行分类，这种数学特征的例子有统计平均值、相关系数、协方差矩阵的本征值及本征向量等。聚类分析在基因表达数据分析中应用得很多，主要有层次聚类、 K 均值、自组织特征映射网络等。本节将介绍基因表达数据分析中常用的聚类方法及与此相关的内容。

相似性度量函数

对基因表达谱进行聚类分析之前，必须首先确定反映不同基因表达谱相似程度的度量函数，根据该函数可以将相似程度高的基因分为一类。在实际计算中，还可以用距离代替相似的概念，相似性度量被转化为两个基因表达谱之间的距离。距离越小，表达模式越相近;反之，则表达模式差异大。

常见的相似性度量有距离、点积、相关系数( correlation coefficient )、互信息( mutual information )等。假设两个基因表达谱分别为 X = ( x 1 ,x 2 ,…,x m )和 Y = ( y 1 ,y 2 ,…,y m ) , 距离函数 d( X ， Y ) 必须满足如下条件：

d( X ， Y ) ≧ 0

d( X ， Y ) = d( Y ， X )

d( X ， Y ) = 0 if X = Y

d( X ， Y ) ≦ d( X ， Z ) + d( Z ， Y )

欧氏距离( Euclidean distance )是一个通常采用的距离定义，它是在 m 维空间中两个点之间的真实距离，两个基因表达谱之间的欧氏距离计算公式如下：

(8-15)

相关系数也是常用的相似性度量函数，计算公式如下：

(8-16)

(8-17) 其中， Goffset 是 G 的各分量的均值，

是标准方差。用上述两种相似性度量，可以找出表达谱相似或者变化趋势相同的基因，如图 8.2(a) 、 (b) 所示。欧氏距离、相关系数可以反映基因之间的共表达关系，两个基因表达谱间的距离小于给定的阈值或相关系数大于某个给定的阈值，就可以认为它们之间是共表达的。距离和相关系数之间存在关联，在具体应用时，可以根据需要进行转换。

距离和相关系数反映的都是基因表达谱之间的相似性，这种相似性反映了基因的共表达行为，而基因的行为是复杂的，它们之间存在调控和被调控的关系，或者存在调控链，例如基因 A 调控 B ， B 调控 C ，调控还有正性调控和负性调控之分。对于这些调控关系，它们的表达谱往往是不相似的，或者存在时延、或者存在反相，而基因表达的幅度也可能不相等。如何从数据中发现这些复杂的基因关系呢? 互信息可能是一种有用的度量指标，其定义如下 :

MI ( X ， Y ) =H ( X ) +H ( Y ) -H ( X ， Y ) (8-18)

(8-19)

MI (X,Y) 是向量 X 和 Y 的互信息， H ( X )， H(Y) 分别是 X 和 Y 的熵， H(X,Y) 是向量 X,Y 的联合熵。归一化互信息 NMI 定义如下：

NMI ( X ， Y ) = MI ( X ， Y ) /max[H ( X )， H ( Y ) ] (8-20)

NMI 独立于单个信息熵，抓住了模式上的相似性。互信息聚类分析没有规则上的约束，不象欧氏距离。

目前，还没有理论来指导如何选择最好的相似性度量，也许一个“正确”的距离在表达模式空间是不存在的，选择何种度量函数依赖于我们要解决的问题。

8.4.2 聚类方法

对于基因表达谱的聚类问题，由于目前对基因表达的系统行为了解得不全面，没有聚类的先验知识，所以通常采用无监督学习方法。在基因表达数据分析方面，层次式聚类、 K 均值、自组织映射神经网络在应用中是常用的方法。下面主要介绍这几种常用的聚类方法，并简单介绍一些其它方法。

简单聚类

假设有 G 个基因，它们的表达谱分别用向量表示为

令任意一个基因的表达向量为第一个聚类的中心

假设选择

然后计算

到

的距离 D21 ，如果 D21 大于给定的阈值T ，则说明

不属于第一类，应该分到另外的类。在这种情况下，建立一个新的聚类中心

;如果D21 小于阈值 T ，则将

分到第一类中。接着处理其它基因，在处理第 i 个基因时，首先计算该基因的表达谱与现有各类中心的距离，假设与第 j 类的距离 Dij最小，并且 Dij简单聚类算法的结果与第一个聚类中心的选择、基因的顺序、阈值 T 以及基因表达谱在其空间的分布有关。该方法对于给定的一组基因表达数据模式进行初步分类提供了一种快速的算法。

层次聚类法

层次聚类法，在统计分析中也称为系统聚类法，原理和算法与第 6 章所介绍的系统发生树连锁构造方法类似，所不同的只是将所分析的数据由生物分子序列换成了这里的基因表达谱。该方法在基因表达谱聚类分析中是常用方法，它的优点是容易理解和实现，所得到的结果以树状图的形式表示，可以直观地观察基因之间的相互关系，尤其是类与类之间的关系。

但是，基因表达谱的数量很多，往往要多于系统发生树分析时的物种数量，而且基因之间相互关系的信息也没有物种之间的多，所以，对聚类结果的后续分析要比系统发生树分析复杂得多。对于表达谱聚类的结果还需要进一步分析基因的功能或者基因的序列特征，一般通过剪枝得到分类结果，而剪枝的过程往往带有更多的主观性，这会导致丢失一些重要的信息或包括一些无关的信息。此外，在构建基因表达谱聚类树时，已被合并的向量不再参与以后的分类，这会导致聚类结果与向量的次序有关，所以被认为是一种局部最优解的方法。

K 均值聚类

K 均值聚类在数据划分上不考虑类的分层结构问题，该算法使待聚类的所有向量到聚类中心的距离的平方和最小，这是在误差平方和准则的基础上得到的。 K 均值聚类算法如下：

(1) 任意选取 K 个基因表达谱向量作为初始聚类中心 Z1 , Z2 ,…, Zk ，在没有先验知识的情况下，一般选择前 K 个基因。

(2) 对所有的基因表达谱向量进行反复迭代计算。在第 l 次迭代过程中，如果

则将 X 所代表的基因归于第 j 类。

(3)经过一次迭代计算后，聚类中心可能发生变化，因此需要重新计算 K 个新聚类中心：

(8-21)

其中 fj(l) 为第 l 次迭代中第 j 个聚类的基因集合， Nj 为该集合中基因的个数。

(4)对于所有的聚类中心，如果 Z j (l+1)= Z j (l)(j=1,2,…,K) ，则迭代结束，得到最后的聚类结果;否则转第 2 步，继续进行迭代计算。

聚类中心的个数 K 、初始聚类中心的选择、基因排列的顺序以及基因表达谱数据的分布影响聚类的结果，当基因表达谱类别之间分离较远时，该算法可以取得令人满意的聚类分析结果。

自组织映射神经网络

人工神经网络技术在模式识别方面有着独特的优势，神经网络能够进行非线性数据处理，发现复杂的数据关系，其中，自组织映射神经网络( Self-Organizing Map ， SOM )可以对模式数据进行自动聚类。

自组织特征映射是 Kohonen 在 1990 年提出的类似大脑思维的一种人工神经网络方法，它是一种竞争学习算法，可以被认为是一种从 N 维模式空间各点到输出空间少数点的映射。这一映射由系统本身完成，没有外部的监督，即聚类是以自组织的方式实现的。 SOM 采用无教师学习训练，训练完成后，分类信息存储在网络各节点连接权值向量中，与权值向量相似的输入向量将分为一类。 SOM 包括一维和二维模型，二维 SOM 也称为 KFM(Kohonen Feature Mapping) 。它们的区别在于 KFM 考虑邻近神经元的相互作用，即获胜神经元对周围神经元由于距离的不同会产生不同的影响。

KFM 的结构如图 8.3 所示，输入网络的是一个 n 维向量的所有 n 个数值，输出单元呈二维排列，个数为 p × p, 输入层与输出层的各单元之间是全连接的，并用 W 表示连接权重。 KFM 的学习过程就是对所有的 G 个样本向量进行迭代学习，直到权值 W 的变化小于某一个确定的阈值或迭代达到一定的次数。测试过程比较简单，对于每一个样本向量，计算其获胜神经元，输出单元相同的样本向量属于同一类。虽然 KFM 有学习过程，但是可以看到这种学习是从所有的样本中自动获取特征，没有教师的参与，因此称为无监督的学习方法。

Kohonen 认为，神经网络中邻近的各个神经元通过侧向交互作用彼此相互竞争，自适应地发展成检测不同信号的特殊检测器。该思想来自于大脑神经元的特性，即大脑皮层的神经元成二维空间排列，不同区域分工不同，各自对输入模式的不同特征敏感，神经元之间存在信息交互，主要是侧向交互，即某个经元对周围神经元之间存在由近到远的不同的影响作用，而不是简单的侧抑制作用。对邻近神经元的交互作用函数有巴拿马草帽型 (公式 8-22 ) 或矩形型 (公式 8-23 ) 。

(8-22)

(8-23)

其中 dcj 是输出单元 c 与邻近单元 j 之间在神经元平面上的距离， R 是交互作用半径。

KFM 的学习过程如下：

学习过程可以采用从全局到局部的策略。采取这种策略时，学习初期可设定较大的交互作用半径 R ，随着学习过程的不断推进，逐步减小 R ，直至不考虑对邻近单元的影响。邻域的形状可以是正方形或者圆形。

KFM 的聚类结果与 K 均值相似，它的优点是自动提取样本数据中的信息，同时也是一种全局的决策方法，能避免陷入局部最小，缺点在于必须实现人为设定类的数目与学习参数，而且学习时间较长。 KFM 方法克服了 K- 均值聚类的一些缺点：它应用类间的全局关系，能提供大数据集内相似性关系的综合看法，便于研究数据变量值的分布及发现类结构。而且，它具有更稳健更准确的特点，对噪声稳定，一般不依赖于数据分布的形状。

其它聚类方法

聚类方法是数据挖掘中的基本方法，数据挖掘的方法很多，在基因表达谱的分析中，除了以上常用方法外，还有一些其它的方法。由于对聚类结果尚没有一种有效的方法进行评价，尤其是对聚类结果的进一步生物学知识发现尚没有新的分析思路和成功应用，因此，科学家们在不断地研究一些新方法。这些方法有不同的原理，能够提取不同数据特征，有可能对具体的数据得到更有意义的结果，发现更多的生物学知识。这里，简单介绍这些方法的原理，更详细的介绍请参看相关文献。

(1)模糊聚类分析方法:这是一种模拟人类的思维方法，通过隶属度函数来反映某一对象属于某一类的程度。基本思路是计算两两基因表达谱之间的相似性程度，构建模糊相似矩阵，利用模糊数学中的传递闭包计算方法得到模糊等价矩阵，选择不同的置信水平从模糊等价矩阵中构建动态聚类图。对于特定的置信水平，可以实现对基因表达谱的分类。该方法的优点是利用了模糊数学中的隶属度概念，能够更好的反映基因表达谱之间的相互关系，而且它是一种全局的优化方法，与向量的顺序无关。

(2)模糊C均值算法:该方法同样将模糊数学中的隶属度概念引入到常用的 K 均值聚类方法中。对于 K 均值算法，一个基因表达谱所属的类只有一个，因此，它与各类别的关系要么是 1 ，要么是 0 ，即属于或不属于某一类。而对于模糊 C 均值法，一个基因表达谱是否属于某一类，是以隶属度

来确定第 i 个样本属于第 j 类的可能性。最终的聚类结果取决于分析的目的，可以根据最大隶属度来确定基因表达谱的分类，即一个基因表达谱只属于一类;但往往是确定隶属度的阈值，只要大于该阈值，就可以将基因表达谱划分为该类，这样的划分结果是一个基因表达谱可以属于多个类，这也是可以被生物学家接受的。模糊 C 均值法与 K 均值法的实现过程基本相同，所不同的是对于模糊 C 均值法并不是直接将样本向量归类，而是计算属于各类别的隶属度

;同样它没有一个明确的类界限，在计算聚类中心时，需要考虑所有的样本向量，根据隶属度μ来计算聚类中心。

(3)谱聚类:K 均值聚类对于聚类中心相距较远的数据样本具有很好的聚类效果，而对于具有同心圆特征的数据样本很难得到好的分类效果，而谱聚类( Spectral clustering )能够很好的对具有这种特征的样本进行聚类。谱聚类是一种基于矩阵特征向量的方法，也是一种能根据顶点之间的权值对图进行划分的方法。用图表示基因表达谱矩阵，基因表达谱可以看作是一组顶点，连接顶点的边的权值反映了两个表达谱之间的相似性，这样就得到有权无向图 G(V ， A) ，聚类过程等价于将 G 划分为不连接的子集，这可以通过简单地删除连接边来实现。

聚类过程包括两个步骤：

第 1 步是将表达谱空间转化为相似度矩阵的特征向量空间;第 2 步是应用简单的 K 均值法对特征向量空间的特征向量进行聚类，得到的结果就对应了基因表达谱的聚类结果。该方法可以根据特征值自动确定分类数目。谱聚类在聚类过程中进行了特征空间的转换，可以将大的空间转化为较小的空间，从而可以更快速地处理大规模的数据。

(4)超顺磁性聚类:

超顺磁性聚类( superparamagnetic clustering )是一种基于模拟非均匀铁磁物质的物理特性的聚类方法，将数据聚类问题视为检验不均匀 Potts 模型的平衡特性。根据表达谱向量之间的距离矩阵构建图，顶点是数据点，如果两个点之间的距离满足 K-mutual-neighbor 准则，则称为邻居。数据点的聚类等价于有权图的划分。给每一数据点分配一个 Potts 自旋子，相邻数据点间引入强度随距离下降的相互作用函数。

非均匀 Potts 模型系统随温度变化表现出三相：在低温下，所有自旋子呈现完全有序的排列，系统为铁磁相;随着温度的升高，小区域自旋子形成磁化“颗粒”，附属于同一“颗粒”者相互间产生强耦合，而无关者间相互作用很弱，不同“颗粒”的排列呈无序状态，为超顺磁相;在高温下，系统不表现任何有序性，为顺磁相。在超顺磁相的转换温度下，磁化率表现出显著的峰值。

原则上，超顺磁相可以有一系列的转换点。随着温度的升高，系统可以首先分裂为两类，其中每一类又可以分裂为更多的子类，这样，数据就分层组织为类。超顺磁性聚类算法的优点是对噪声及初始化不敏感，因为类由系统的综合性质产生。由磁化率的峰值很容易鉴别主要的分界，从而能清楚显示类的构成和分界，并且在每一个分辨率上能自动确定类数。

(5)双向聚类法:

以上所述方法主要是对基因表达谱进行聚类，或针对基因表达矩阵的行进行聚类分析，将具有相似模式的基因表达谱分为一组，这是在应用中要解决的主要问题。基因表达数据矩阵中的列表示了实验条件，可以是时间序列，也可以是不同的肿瘤样本或病人样本。

从生物学应用的角度，针对列的聚类可以发现各实验条件之间的相互关系，例如，同一肿瘤类型的样本可以聚成一类，它们具有相似的基因表达模式，这样就可以基于表达谱对肿瘤进行分类。从数学的角度，数据矩阵中的每一列对基因表达谱的行聚类结果有着不同的影响，挑选部分列进行聚类的结果与选择所有列进行聚类的结果是不同的。将两者结合起来，就称为双向聚类法，在行和列两个方向上进行聚类分析，通常采用贪婪迭代检索的方法来发现子矩阵或稳定的类，这些子矩阵中感兴趣的模式具有特定的生物学意义。在应用中，可以根据具体的目的，确定以降低基因维数还是以降低样本维数为主，通过迭代得到稳定的若干样本分类或基因分组。

基于模型的聚类方法

在基因表达数据显著性分析时，我们提到贝叶斯方法的应用，它分别对两种条件下的数据构建模型，通过比较它们的模型参数来确定表达差异的显著性。同样，基因表达谱分析也可以引入建模的方法，假定每一个基因表达谱是由一种内在的概率模型产生的，它满足一定概率分布或者分布的有限组合，例如多元正态分布，而所有的基因表达谱是由若干个概率模型混合产生的，这样就可以通过确定这些概率模型，来实现对基因表达谱聚类的目的。高斯混合模型是该聚类方法中的常用模型。

与上面所述的各种启发式聚类算法比较，基于模型的方法具有的最大优点是，不需要使用严格的方法来确定类的数目或最佳的聚类方法，但是不足是计算量非常大，对于大量数据的分析比较困难。

基于混合模型的聚类，首先假设数据中蕴含的每一类样本由一种内在的概率分布混合产生，例如高斯混合模型，独立多元观测 y1， y2 ， … ， yn 组成的数据Y中每一元素 yk由参数为 uk(均值向量)和Σk(协方差矩阵)的多元正态分布模拟，

(8-24) 式中的det是求矩阵行列式值的函数。算法的目标是由数据预测参数uk和Σk 并确定相应于这些参数预测的类。为了便于参数预测，对Σk 进行特征值分解：

， D 为特征向量组成的正交矩阵，确定模型的取向，A为对角矩阵，元素与Σk的特征值成正比，确定模型的形状λ为标量，确定模型的体积。约束和改变部分参数，可以得到这一概率框架下的一组模型，如 , 等体积球模型( EI ：

， I 为单位矩阵)、不等体积球模型 (VI:

) 等，以适应数据特征的变化。模型参数可以通过 EM (期望最大化)方法估计。每一种协方差矩阵与类数组合情况相应于不同的概率模型，由贝叶斯信息准则 (BIC) 估计每一种模型下数据被观测到的概率，计算模型的 BIC 得分，最后选择 BIC 得分最大的模型和参数对该样本进行分类。

8.4.4 支持向量机

如上所述，对于基因表达谱数据矩阵M，在对行或列向量进行聚类分析时很少或根本没有用到生物学知识，所得到的结果是否具有生物学意义，还需要进一步的分析。然而，对于特定的数据矩阵，都有特定的生物学背景，例如，基因之间存在相关性，可以分成若干功能类，样本之间也存在某种关系，可能来自患有相同肿瘤的病人。将这些知识应用于聚类方法中，挑选部分样本作为训练样本，可以提取特征构建分类器，然后对其它的样本进行分类，实现聚类的目的。

这种方法称为有监督学习方法，支持向量机( support vector machine ， SVM )就是这样一种从少量样本中提取分类信息的机器学习方法。因为 SVM 仅仅需要少量样本，而实现对大量样本的分类，这与分类问题中通常有明确类别存在的情况下对未知类别进行分类是不同的，所以，在这里将它作为一种聚类方法进行介绍。

统计学习理论是目前针对小样本统计估计和预测学习的最佳理论，它从理论上较系统地研究了风险最小化原则成立的条件、有限样本下经验风险与期望风险的关系以及如何利用这些理论找到新的学习原则和方法等问题。支持向量机是实现统计学习理论思想的具体方法，可以用于解决小样本、非线性及高维学习问题，不需要足够的样本来构建特征空间，而仅仅需要少量的样本来构建分类界面，这些用来构建分类界面的样本就称为支持向量。

考虑图 8.4 所示的二维两类线性可分情况，图中实心点和空心点分别表示两类训练样本点，分类线 H 能把两类正确地分开， H 1 ， H 2 平行于 H ，并且分别为两类样本中离分类线 H 最近的点， H 1 、 H 2 之间的距离叫做两类的分类空隙或分类间隔，最优分类线就是要求分类线不但能将两类正确地分开，同时要求使两类的分类空隙最大，从而使真实风险最小。对于高维空间，最优分类线就成为最优分类面。