发布时间:2020-09-07 21:41 原文链接: 蛋白质二级结构预测(proteinsecondarystructureprediction)

蛋白质二级结构的预测开始于20世纪60年代中期。二级结构预测的方法大体分为三代,第一代是基于单个氨基酸残基统计分析,从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构预测的依据。第二代预测方法是基于氨基酸片段的统计分析,使用大量的数据作为统计基础,统计的对象不再是单个氨基酸残基,而是氨基酸片段,片段的长度通常为11-21。片段体现了中心残基所处的环境。在预测中心残基的二级结构时,以残基在特定环境形成特定二级结构的倾向作为预测依据。这些算法可以归为几类:(1)基于统计信息;(2)基于物理化学性质;(3)基于序列模式;(4)基于多层神经网络;(5)基于图论;(5)基于多元统计;(6)基于机器学习的专家规则;(7)最邻近算法。第一代和第二代预测方法有共同的缺陷,它们对三态预测的准确率都小于 70%,而对β折叠预测的准确率仅为28~48%,其主要原因是这些方法在进行二级结构预测时只利用局部信息,最多只用局部的20个残基的信息进行预测。二级结构预测的实验结果和晶体结构统计分析都表明,二级结构的形成并非完全由局域的序列片段决定,长程相互作用不容忽视。蛋白质的二级结构在一定程度上受远程残基的影响,尤其是β折叠。从理论上来说,局部信息仅包含二级结构信息的65%左右,因此,可以想象只用局部信息的二级结构预测方法,其准确率不会有太大的提高。

二级结构预测的第三代方法运用蛋白质序列的长程信息和蛋白质序列的进化信息,使二级结构预测的准确程度有了比较大的提高,特别是对β折叠的预测准确率有较大的提高,预测结果与实验观察趋于一致。一般75%的氨基酸残基可以被置换而不改变蛋白质的结构,然而有时改变几个关键的残基则可能导致破坏蛋白质的结构。这好像是两个矛盾的结论,但解释又非常简单。一个蛋白质在其进化过程中探查了每个位置上氨基酸可能的与不可能的变化,不可能变化的部分是进化保守区域。可变部分的变化不改变结构,而不可变部分的变化则改变蛋白质的结构,由此失去蛋白质原有的功能,因而也就难以延续下去。这些不可变部分体现了蛋白质功能对结构的特定要求。这样,从一个蛋白质家族中提取的残基替换模式高度反映了该家族特异的结构。通过序列的比对可以得到蛋白质序列的进化信息,得到蛋白质家族中的特定残基替换模式,此外,通过序列的比对也可以得到长程信息。

目前,许多二级结构预测的算法都是基于序列比对的,通过序列比对可以计算出目标序列(待预测其二级结构的序列)中每个氨基酸的保守程度。对于二级结构三态(α,β,none)预测准确率首先达到70%的方法是基于统计的神经网络方法PHDsec。PHDsec利用通过多重序列比对得到的进化信息作为神经网络的输入,另外采用了一个全局的描述子,即所有氨基酸组成(20种氨基酸中每个所占的比例)作为蛋白质序列的全局信息。这类算法预测的准确率能达到 70%至75%。各种方法预测的准确率随蛋白质类型的不同而变化。例如,一种预测方法在某些情况下预测的准确率能够达到90%,而在最差的情况下仅达到 50%,甚至更低。在实际应用中究竟使用那种方法,还需根据具体的情况。虽然二级结构预测的准确性有待提高,其预测结果仍然能提供许多结构信息,尤其是当一个蛋白质的真实结构尚未解出时更是如此。通过对多种方法预测结果的综合分析,再结合实验数据,往往可以提高预测的准确度。二级结构预测通常作为蛋白质空间结构预测的第一步。例如,二级结构预测是内部折叠、内部残基距离预测的基础。更进一步,二级结构预测可以作为其它工作的基础,例如,用于推测蛋白质的功能,预测蛋白质的结合位点等。


相关文章

瑞典研究探明蛋白质引导电荷运移机制

瑞典哥德堡大学科研人员探明了细胞中的能量如何通过微小的原子运动引导以到达蛋白质中的正确位置。相关研究发表在《自然》(Nature)杂志上。科研人员使用飞秒X射线晶体学技术分析了果蝇中的一种蛋白质,即光......

新探针可实现对蛋白质N端组学深度富集检测

中国科学院上海药物研究所研究员黄河、柳红合作,研究设计合成了一种含有吡啶甲醛片段的可断裂分子探针2PCA-Probe,可实现对蛋白质N-端的深度富集检测。相关研究发表于《美国化学会志》。蛋白质水解是一......

预测蛋白质“糖衣”形态有了新方法有助于药物研发

2月29日,德国、波兰、法国与中国台湾组成的科研团队在学术期刊《细胞》发表成果,开发出能在几分钟之内预测蛋白质“糖衣”形态的新型计算方法,有助于进一步了解蛋白质在健康和疾病中的作用,帮助药物与疫苗研发......

科学家成功解析叶绿体基因转录蛋白质机器构造

叶绿体中的光合作用将光能转化为化学能,吸收二氧化碳,释放氧气,是地球生物圈的重要塑造者。叶绿体约在15亿年前通过蓝藻内共生进化而来。在进化过程中,叶绿体基因要么被废弃,要么逐渐转移到细胞核染色体中,导......

人与猿类如何在进化中“甩掉”尾巴

猴子有尾巴,而人类和猿类的尾巴却在进化中消失了,是什么在其中起了关键作用?《自然》28日发表的一篇论文,报道了人类和猿类演化掉尾巴的遗传学基础。灵长类动物尾部表型的系统发育树(Ma表示百万年前)。图片......

应激诱发仔猪肌肉生长阻滞分子机制研究获新进展

集约化养殖过程中,免疫应激普遍存在于断奶仔猪饲养环节,会导致仔猪肌肉蛋白质降解和生长阻滞,最终严重影响肥育阶段产肉率和肉品质,给养猪业带来巨大经济损失。因此,有效缓解仔猪免疫应激是当前养猪生产亟待解决......

研究发现蛋白质摄入过量不利于动脉健康

美国匹兹堡大学医学院的研究人员发现,摄入过量的膳食蛋白质会增加动脉粥样硬化风险。研究结果发表在19日的《自然·新陈代谢》杂志上。该研究结合了小型人体试验、小鼠实验和培养皿中的细胞实验。结果显示,当膳食......

Nature:2024年值得关注的七项技术,它是核心

随着人工智能(AI)技术的不断突破和大型模型的层出不穷,AI受到了前所未有的关注。面对这一浪潮,人们不禁好奇:未来究竟会是什么样子?为了解答这一问题,《Nature》杂志发布了未来的一年里,将密切关注......

替代性蛋白质或为碳减排开辟新天地

荷兰科学家研究认为,到2050年,用替代性蛋白质取代50%的动物产品,可以腾出足够的农业用地生产可再生能源(其能量相当于今天的燃煤发电),同时从大气中去除大量二氧化碳。相关研究近日发表于环境科学期刊《......

Nature发布2024年值得关注的七大技术,首位中国科学家成果入选

2024年1月22日,《自然》发布了2024年值得关注的七大技术——大片段DNA插入、人工智能设计蛋白质、脑机接口、细胞图谱、超高分辨率显微成像、3D打印纳米材料和DeepFake检测。七大技术中,生......