人工神经网络是一种复杂的信息处理模型。随着神经网络研究的兴起,科学家们也将神经网络用于生物信息学,其中包括二级结构的预测、蛋白质结构的分类、折叠方式的预测以及基因序列的分析等等。将神经网络用于二级结构预测的最早是由Qian和Sejnowskit提出的,他们受到神经网络在文字语言处理方面应用的启发,将蛋白质序列看作是由各种氨基酸字符组成的字符序列,将氨基酸残基片段作为输入的一串语言字符,二级结构即为对应的输出。神经网络可以有效地学习蛋白质二级结构形成的复杂规律或模式,提取更多的信息,并利用所掌握的信息进行预测。利用神经网络方法可以提高二级结构预测准确率。早期的神经网络方法能够得到63-65%的二级结构预测准确率,利用多序列比对的信息对二级结构预测的准确率能够达到70%。
用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层、隐含层以及输出层。每一层由若干神经元组成,输入层神经元与隐含层的神经元是完全连接的,即任何一个输入层神经元都与任何一个隐含层的神经元连接。同样,隐含层神经元与输出层的神经元也是完全连接的。如下图:
用于蛋白质二级结构预测的人工神经网络模型
输入层用于接收蛋白质窗口序列数据。沿蛋白质的氨基酸序列依次取一定大小的窗口,将窗口内的序列片段进行编码,窗口包括中心氨基酸残基及左右m个(共2m+1个)残基,每一个残基用21个神经元编码,因此,输入层共有21*(2m+1)个神经元。输出层有3个神经元,分别对应于窗口中心残基的H、
E、C三态。输入层中编码一个残基的21个神经元只有一个处于激发状态,即设置为1,其余为0,对应于一种氨基酸残基。类似地,代表中心残基二级结构状态的输出单元的期望输出为1,其它两个单元为0。在这样一种神经网络模型中,隐含层的神经元是完成从氨基酸序列到蛋白质二级结构映射的关键,这种映射是非线性的。通过隐含层的信息处理,可以检测残基及所处环境与二级结构的复杂关系。隐含层的神经元个数一般从2个变化到几十个,隐含层的神经元越多,则神经网络对训练实例的记忆能力越强,但是神经网络的推广能力将越弱,对新蛋白质二级结构预测的准确率越低。因此,在实际应用中需要通过大量实验,选择合适的隐含层神经元个数。在实际应用中,窗口的大小影响预测结果,Qian和Sejnowskit实验结果表明窗口的大小取13个残基为佳。
神经网络通过神经元之间的连接存贮信息或知识,因此,神经网络学习的过程实际上是调整网络中各连接权值的过程。神经网络中各层之间的连接权值调整采用反向传播BP算法(相应的网络称为BP网)。在训练或学习过程中,将结构已知的蛋白质序列由输入层输入,不断调整神经网络神经元之间的连接权重及网络节点的偏置,直至实际输出与期望值差别最小为止。在训练过程的每一步,取一个窗口中的序列及窗口中心氨基酸所对应的二级结构作为已知的映射结果,调整网络映射行为,使之与已知映射关系相一致。训练完毕后,得到一个已确定参数并且可以进行结构预测的实际神经网络。
与前述其它方法相比,神经网络具有应用方便、计算能力强、预测准确率较高的特点,网络一旦训练完毕,就可以进行快速预测。目前二级结构预测识别率不高的主要因素是许多预测方法没有使用足够的进化信息和全局信息。蛋白质序列家族中氨基酸的替换模式是高度特异的,如何利用这样的进化信息是二级结构预测的关键。
基于人工神经网络模型的预测软件PHDsec使用简介:
PHDsec的第一步工作是形成同源序列的多重对比排列。对于一个待预测的蛋白质,PHDsec首先利用BLAST在SWISS-PROT数据库中搜索同源序列,然后再利用MaxHom程序将这些同源序列对比排列起来,并对每个比对的位置进行统计分析。
PHDsec的第二步工作是将得到的多重比对的统计结果送到一个神经网络中计算。这里的神经网络是一个多层的前馈网络,如下图:
PHDsec模型
整个网络模型包括两个层次:第一层网络进行序列到结构的映射,对于第一层网络的输入包括两个部分,如上图中(a)、(b)所示。一部分是序列的局部信息,取自窗口内w(缺省值为13)个氨基酸残基,另一部分是来自整个序列的全局信息。首先,取多重序列比对的w列,上图中(a)所示,这里w=7;然后,计算序列局部统计数据以及序列全局数据。局部数据有24个,其中20个数据对应于20种氨基酸,1个数据对应于“空缺”氨基酸(这使得窗口位置可以在序列的两端,蛋白质的第一个或最后一个氨基酸都可以作为窗口的中心,不存在的部分用“空缺”符号代替),2个数据分别表示多重序列比对中该位置的插入(ins)和删除(del)的次数,1个数据表示该位置的保守程度(cons)。全局数据有32个,其中20个数据表示各种氨基酸所占百分比,表示蛋白质长度的数据有4个(分别对应与4个区间,见上图中(b)),当前窗口到蛋白质N-端和C-端的距离分别有4个。第一层次网络的输出是窗口中心残基二级结构的状态,H代表螺旋,E代表折叠,L代表其它。第二层次网络是一个结构到结构的映射,作用是对前一层网络的输出进行校正。第二层网络的输入主要是第一层网络的输出,同时还包括所有全局信息以及局部的保守信息(cons)。所有第二层网络的输入表示为:3(二级结构)+1(空缺)+1(cons)+32(全局数据)。第二层网络输出的含义与第一层网络的输出一样。
建立好系统的模型后(开始的时候系统仅仅是一个空壳),PHDsec对神经网络进行训练,通过训练教会神经网络如何正确地预测蛋白质二级结构。训练是一个反复的过程,要求神经网络至少能够正确处理训练数据。PHDsec的训练数据是随机选取的。
由于PHDsec在进行二级结构预测时采用序列多重比对的统计结果,而序列多重比对反映了蛋白质家族的共同特征,提取了结构保守的信息。序列多重比对结果也反映了在进化过程中,哪些部分的结构容易发生变化,而哪些部分的结构对蛋白质的功能非常重要,不能随意改变。这些信息对于蛋白质结构预测来说,是非常关键的。多重序列比对所携带的进化信息也暗示了蛋白质中长程相互作用:假设蛋白质中氨基酸残基i与残基i+100在三维空间中靠在一起,残基i可能的替换类型受到残基i+100理化特性的约束。这样的长程相互约束关系会反应在多重序列比对中。总之,利用多重序列比对的信息,可以提高二级结构预测的准确性。另外,PHDsec通过两层神经网络的体系,加强了预测结果的校正,由此提高了对β折叠结构预测的准确性。正因为这样,PHDsec预测的准确率比较高,对二级结构预测的准确率达到72%,而且还对序列上每个位点的预测可信度给予统计分析。PHDsec是第一个预测准确率超过70%二级结构预测方法,比基于单条序列的预测方法提高了近10个百分点。
中南大学 2025年11月政府采购意向公开为便于供应商及时了解政府采购信息,根据《财政部关于开展政府采购意向公开工作的通知》(财库〔2020〕10号)等有关规定,现将中南大学2025年11月......
日本研究人员参与的一个国际团队近日在英国《自然-通讯》杂志发表论文说,一种蛋白质在实验鼠精子与卵子结合过程中发挥关键作用,由于人体内也有这种蛋白质,这项成果可能有助于诊疗男性不育。日本熊本大学和大阪大......
为什么不同生物在适应相似环境时,会独立演化出相似的功能?一项最新研究从蛋白质的“高阶特征”层面揭示了这一生命演化奥秘的重要机制。这项研究由中国科学院动物研究所邹征廷研究员团队完成,成功利用人工智能领域......
衰老对海马体(大脑中负责学习和记忆的区域)的影响尤为严重。如今,旧金山加州大学的研究人员发现了一种在该衰退过程中起核心作用的蛋白质。这项研究成果于8月19日发表在《自然—衰老》期刊上。科学家们确认FT......
2025年8月9日,备受瞩目的2025年全国糖生物学会议暨第六届全国糖化学会议在四川成都正式开幕。本届盛会由中国生物化学与分子生物学会糖复合物专业分会、中国化学会糖化学专业委员会、安特百科(北京)技术......
德国莱布尼茨老龄研究所团队在一种名为鳉鱼的淡水鱼大脑中发现,随着年龄增长,细胞内合成蛋白质的“工厂”——核糖体,在制造某一类关键蛋白质时出现卡顿,从而引发一连串恶性循环,导致细胞功能不断衰退。这或许是......
近日,湖南大学生物学院生物与化学质谱实验室岳磊教授团队在蛋白质质谱成像(MSI)领域取得重要突破。团队创新性地提出了组织蛋白质成像新策略:HydroWash。该方法创新性地将组织洗涤与明胶水凝胶调控相......
将高度互补的蛋白质组学技术专长与因美纳行业领先的产品创新和全球市场影响力相结合为因美纳在广阔且持续增长的市场中实现增长奠定基础自2021年末以来,因美纳与SomaLogic即在蛋白质组学联合开发方面开......
6月19日消息,国际顶级期刊《NatureMachineIntelligence》发表了阿里云AIforScience的研究成果LucaOne。这是业界首个联合DNA、RNA、蛋白质的生物大模型。该大......
近日,华南农业大学教授王应祥团队在国家自然科学基金等项目的资助下,研究揭示了模式植物拟南芥泛素连接酶后期促进复合物/细胞周期体(APC/C)调控减数分裂染色体正确分离的分子机制。该研究丰富了蛋白质泛素......