发布时间:2020-09-07 13:38 原文链接: 蛋白质三级机构预测-同源模型化法2

5、构建目标蛋白质的环区:在第2步的序列比对中,可能加入空位,这些区域常常对应于二级结构元素之间的环区,对于环区需要另外建立模型。一般也是采用经验性方法,从已知结构的蛋白质中寻找一个最优的环区,拷贝其结构数据。如果找不到相应的环区,则需要用其它方法。

6、优化模型:通过上述过程为目标蛋白质U建立了一个初步的结构模型,在这个模型中可能存在一些不相容的空间坐标,因此需要进行改进和优化,如利用分子力学、分子动力学、模拟退火等方法进行结构优化。

当然,如果能够找到一系列与目标蛋白相近的蛋白质的结构,得到更多的结构模板,则能够提高预测的准确性。通过多重序列比对,发现目标序列中与所有模板结构高度保守的区域,同时也能发现保守性不高的区域。将模板结构叠加起来,找到结构上保守的区域,为要建立的模型形成一个核心,然后再按照上述方法构建目标蛋白质的结构模型。

预测结果的准确性及改进

对于具有60%等同部分的序列,用上述方法所建立的三维模型非常准确。若序列的等同部分超过60%,则预测结果将接近于实验得到的测试结果。一般如果序列的等同部分大于30%,则可以期望得到比较好的预测结果。当然,这种计算方法要占用大量的计算时间,主要是由于第4步的数据库搜索过程耗时较多。

如果序列的等同部分小于30%或更少,那么预测结果的准确性如何呢?随着U和T的相似度降低,比对这两个蛋白质序列所需插入的环(LOOPS)增多。为环区建立精确的三维模型意味着解决结构预测的问题。有许多具体的方法可用于为环区建立三维模型,其中最好的方法在一些情况下能够得到环区正确的取向。为环区建立三维模型的一种方法是分子动力学模拟。由于环区一般来说相对比较短,可以用分子动力学方法来模拟,但在动态模拟过程所需要的计算时间随着多肽链的残基数指数增长。然而,即使序列等同部分下降到25%-30%,同源模型化方法也能产生出未知结构蛋白质整体折叠的粗糙模型。对于这样初始模型可以进行优化。常常用分子动力学技术进行优化,以提高精度。通过分子动力学的进一步模拟,往往能够得到较好的结果。


在实际研究中,对于蛋白质结构的分析和预测往往着眼于某些关键部位,或者功能区域。通过对蛋白质序列的分析可以发现,在一个蛋白质家族中,存在着保守的氨基酸序列片段,这些保守的序列片段称为氨基酸序列模式(motif)。在蛋白质家族进化的过程中,序列模式的变化被强制约束,以保证蛋白质的主要结构和功能不变。一个序列模式与蛋白质特定的局部空间结构相对应,分析序列模式与局部空间结构之间的关系有助于了解蛋白质的功能区域的结构,而详细地分析这些关键的结构部分,有助于我们认识蛋白质作用的机理、了解蛋白质与其它生物分子之间的相互作用,甚至为新药设计提供依据。

同源模型的其他方法

也可以用人工神经网络(如BP网)来预测同源蛋白质的空间结构。Bohr等人曾利用BP网预测同源蛋白质的折叠模式,该方法应用距离点矩阵表示蛋白质的结构,同源蛋白质的距离矩阵相似。沿水平轴和垂直轴画出蛋白质序列,如果两个氨基酸C原子之间的距离小于指定的距离,则在矩阵α对应位置打上点标记。与二级结构预测的神经网络方法相似,将一个窗口在蛋白质序列上移动,利用窗口内蛋白质序列、二级结构类型、反映空间结构信息的点距离矩阵作为神经网络的输入输出数据。其中在网络的输入层输入一个窗口内氨基酸序列信息,于中心氨基酸两侧分别取30个氨基酸,窗口大小为61。网络的输出层有33个节点,其中 30个节点对应于中心氨基酸前30个氨基酸,其值为“0”或者“1”,这取决于该氨基酸与中心氨基酸的距离是否小于给定的值(如8),这与点距离矩阵相对应。另外3个输出节点用于表示二级结构类型(螺旋、折叠、卷曲)。利用已知结构的同源蛋白质训练该网络,然后用训练好的网络对属于同一家族的蛋白质结构进行预测。该模型可以同时进行二级结构和空间结构的预测。