发布时间:2020-08-24 15:55 原文链接: 二维凝胶的定量分析实验(二)

4. 传输数据转化为光密度


传输的数据必须转换成光密度(当然荧光染色不能做这种转换)。在大多数的二维数据包中不需要用到这个。蛋白质浓度与光密度呈线性相关,而非传输值。光密度 (OD) 和传输值之间的关系如下:OD= - log (I/I0) 。


由于这种关系不是直线,一个给定的传输增加值与不同的 OD 增加量相对应,这依赖于传输数值的原始值。只要使转换的光密度与点量和蛋白质量成线性关系。如果某一特定蛋白质分别来源于 A 和 B 两个不同的样本,且 B = A + X,那 么 ODB  = OD(A+X) =ODA+ ODX,其结果 OD 是相加关系,这对于传输值是不正确的,在背景减除之前必须先做这种转换(图 16-1)。


一般地,可以通过扫描柯达条带( Kodak  strip) 转换成 OD。二维软件数据包含有一种工具来记录与传输数据相应的已知 OD 和计算调整曲线。值得注意的是,转换必须顾及 OD 和传输值之间的自然对数的关系,否则线性回归是没有用的。


3.3 点量的均一化


正如在 1. 中已经讨论过的,大部分的变化点是与凝胶效应相关的:在蛋白质上样过程中,在二维电泳中可能的蛋白质沉淀和在染色过程中的不可控变化都有可能影响凝胶整体强度。这种变化或多或少会影响某一特定凝胶上所有的点,所以均一化的目的是纠正这些普遍的差异。因此,均一化应该在蛋白点转化为 OD 值和背景消除以后进行( 见注释 2) 。


1. 蛋白点均一化的定义


进行点检测的区域由用户决定。一般情况下蛋白点的均一化要在同一个区域中进行。在所有凝胶中确定一个相同的区域很重要,因为这种广泛的均一化模式是基于这个区域中所有蛋白质点的总量。由于凝胶-凝胶变化(不完整的凝胶,因各种原因难以定义的区域),并不总是能够确定所有的凝胶中蛋白点检测的相同区域。那么,这时最好定义另一个区域作点的均一化。其实,即使感兴趣的同一区域被限定作点检测,而为了计算均一化界定更小的区域将更加实用,凝胶上大多数可变区可拋弃。蛋白点体积的均一化是依照用户自定义区域中点的总量而定的,可以用二维软件包简单程序化。从二维软件包中输出的数据包括 X、Y、非均一化的量、在每个凝胶上的每个检测点优化的匹配数目(即参考数)。这些数据很容易在一般的二维软件包输出(如通过从 Progenesis 的测量窗口输出数据)。


“ firstgel.  csv” 是一个文本文件,其中第一行包含列标题,下面的行包含点的数目、匹配点的数目、X、Y 和在第一向凝胶上所有检测点的非均一化的量。图 16-2 显示的是用 SAS 语言编写的程序,根据用户自定义区域所有点的总量使其归一化,并产生一个单独的固定表格,其中每个点是一个变量(一列),每一个凝胶是一行(一个观察值)。 虽然图 16-2 没有表示,但这种方法容易与另一个方法配合使用。举例来说,点的总量计算可以限制在所有凝胶上出现的点(见 16.3.5 节 )。 计算也可以只限于特异的一系列点。但是,最终选定作归一化的点数不应该太少:数目越少,归一化越不稳定。


如图 16-2 程序所示,由于有许多的注释,所以看起来非常复杂,其实他们是相对明确而简单的。正如分析定性和定量的变化有不同的方法,归一化也有不同的方法。可以用最普通的统计数据包进行编辑,方法上比二维数据包自带的有限统计工具更加便捷和先进。


2. 其他点的归一化方法


另一种点的归一化方法是基于在参考凝胶与所研究凝胶同一区域上点的体积比:volrcf /volgel,要计算参考凝胶和研究凝胶上所有的匹配点。均一化是由凝胶上的所有点的体积与相应比值的平均值(或中值)乘积组成。由于没有将全部点计算,该方法的准确性并不取决于均一化区域的精确界定。当然即使它的重复性不是很好,我们仍然可以使用感兴趣的经典区域。因为它是基于在两块凝胶上匹配的点(即在均一化的凝胶和在参考凝胶上),均一化涉及的点数多于在所有凝胶上出现的点数,因为随着实验中凝胶数量的增加,凝胶上点的数量会明显下降。


这种方法在理论上也优于同一区域上相对应的所有点的归一化方法,因为它对于一个处理的特异性点没有偏差。它可以通过计算在一个特定的范围内点的体积比来提高其准确性。事实上,可以不考虑很微弱的点,因为小体积的变化可以引起大比率的变化,而且非常大的点也应排除在外,因为这些大点的近饱和值缺少线性关系。


在此方法中未匹配的点是没有用的,只有包含所有凝胶上所有匹配点的原始量和匹配数目的一个表将被输出。程序如图 16-3 所示,从 CSV 文件中提取的数据来源于 Progenesis 软件的 “比较窗口” 。第一列包含匹配的名字,接下来的列包含不同凝胶上点的非归一化量值。值得注意的是,如果对由二维软件所提出的归一化方法满意的话,这种定量数据输出的方式也是最方便的。同时输出的文件还可以用于可重复性点和定性变化点的选取 ( 见  16. 3. 5 ) 。


Burstin 等 [1] 建立了另一种点均一化方法。它是基于主成分分析法,适用于当所研究的参数变量相对于残差较小时,或者是这种变异只涉及少数点时。这里不作进一步介绍。


3.4 相对强度和相对量的线性关系


分析蛋白质(丰度)含量与测量点的体积间的关系是十分有趣的。一种做法是,比较载有相同样本的一系列蛋白质含量的凝胶。不过,在真正的比较中,由于点的量是归一化的,这并不能给出一个正确的量化估计。实际上,人们不能从载有相同样本不同含量的凝胶上归一化点的量,这是由于归一化将消除整体凝胶效应,而这种效应是由蛋白质上样差异所造成的。


更好的方法是使用两种包含特定点的不同样本(如感兴趣的样本和另一来自不同的物种或器官的样本),并且准备不同比例的混合物,如 从 1  :  9 到 9  :  1,但总蛋白质的量不变。从这些不同混合物和两个纯样本获得的二维凝胶可以像通常情况一样实现均一化,能够计算出对于感兴趣样本的特异点的回归,正如在混合样本中各样品的已知比例一样。Avid 等使用这种方法,对在正常的实验中相同条件下点的量与蛋白浓度的线性关系进行研究。如果反应是线性的,即可对不十分显著的差异蛋白浓度进行测定。


3.5 质变


质变,即点变量的存在与缺失,这比定量变量更容易确定。然而,有时它的界定也会比较困难,至少在处理大规模实验时,会有一定量的数据缺失。


重复点不能在所有的凝胶都出现,因为根据定义是不可能检测到重复的质变点。因此,最好用一致性来处理,同时考虑到这样一个事实,即蛋白质点可以持续性地出现或缺失。最严格的一致性标准是认为一个蛋白质点必须在某一给定组中所有重复中都存在(处理组、基因型等) ,并在另一个 “缺失” 组中的所有重复中都缺失。但是,这个标准对于许多凝胶过于严格,因为实验中存在可能的意外(如凝胶染色比其他的浅、凝胶的破损等)。


3.6 量变


定量蛋白质组学分析的目标差异可能很大,从全局分析,其兴趣在于确定蛋白质变化的主要根源,确定与特殊处理相应的为数不多的蛋白质点。


定量变化可以用来分析蛋白质之间的关系,如确定核调控蛋白质的种类。一般情况,等级分类用在以下这种情况:在不同的实验条件根据蛋白质总量将它们聚类并可视化 。通过“cluster”程序可以做到聚类的可视化。


主成分分析(PCA ),以点作为变量,以样本作为观察值,它能根据变量所代表蛋白质点的主要变异量使不同样本的分布可视化(见第 17 章 )。PCA 也可以自动侦测异常凝胶,如所研究凝胶上的点却散落在其他凝胶上(见注释 3)。


定量变化的另一种做法是寻找与实验(如处理、基因型)可控因素或实验期间的其他因素(如激素剂量)明显相关的功能蛋白质。像 PCA 这样的全局性分析中,并不希望专门侦测到显著变化点,因为它们不一定需要很多,而其变化相对于大多数点的变化有髙度特异性。当检测点存在单一或多因素显著变异时,一般选择方差分析的方法。当两个以上的处理进行对比,这时最好使用方差分析,而不是直接运行 t-检验,因为它能更好地计算剩余方差估计式(见注释 4) 。


经过方差分析后,根据具体的生物学问题可以使用不同的比较方法。如 Dunnet 测试适用于同一控制条件下不同的处理方法进行对比,Duncan 或 Student-Newman-Keuls 测试适用于所有处理间的比较(见注释 5) 。线性回归适用于计算点与连续变量(如激素的剂量)之间的关系。图 16-5显示了选择所有点的 SAS 编程程序,这些点显示了在两因素方差分析中显著的变化及因素间的相互作用(见注释 6)。


一般情况下,0.05 或 0.01 是统计检验中常用的显著性水平。即当数据中的变化有 5% 或 1% 的概率时,这变化被认为是显著性变化。换言之,显著性水平是一个假阳性检测的概率。因此,如果 0.01 显著性水平用于 1000 个点时,可以肯定的是它们中约有 10 个是假阳性。方法之一,考虑用比较的数目分割显著性水平( Bonferroni校正)。在目前情况下,这将导致 10-5 的显著性水平。这样检测到的全部假阳性概率是 1000 点区域存在 0.01 个假阳性。这是一个保守的方法,但它降低了灵敏性,因为显著性水平为 10-5 时,变异将非常大。使用此方法也可能丢失许多真的点。


在做多重比较时,Benjamini 和 Hochberg [3] 提出了错误发现率(FDR ) 的方法。这种方法的原理是要允许几个百分点(如 5% 或 1% ) 的检测变化是假阳性。而 Bonfenroni 校正的做法是保持 1/1000 个假阳性点的风险在 1%。而 FDR 方法是允许阳性检测的 1% 错误,这种方法不是很保守,但比 Bonferroni 校正更灵敏。这是一个处于完全没有校正(所有点测试在1% ) 和 “ 过度 ”校正(Bonfemmi 校正)之间的折衷方案。图 16-6 显示了依照 FDR 方法选择显著点的 SAS 程序。