发布时间:2020-09-14 11:18 原文链接: 核酸和蛋白质序列分析2

(2)输出:除了以文本形式外,还可以通过JalView显示和编辑结果。此外,还可以另外使用GeneDoc(常见于文献)及DNAStar软件等显示结果。多序列比对的结果还用于进一步绘制进化树。

3、ORF(Open Reading Frame)分析

从核酸序列翻译得到蛋白质序列,需要进行ORF分析,每个生物信息学分析软件包几乎都带有翻译功能。推荐使用NCBI的ORF Finder(http://www.ncbi.nlm.nih.gov/gorf/gorf.html)软件或EMBOSS中的 getorf(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/)软件。ORF Finder 以图形方式,分为正链+1、+2、+3和反链+1、+2、+3六个相位预测ORF;Getorf可指定预测ORF的长度下限和指定预测正反链。进行ORF 分析虽然比较简单,但应注意以下几点:

(1)序列的准确性:尤其是通过计算机拼接的序列,需要根据EST和基因组序列进行反复校正。

(2)ORF是否完整:看在ORF上游同一相位是否具有终止码,或者具有起始密码子。

(3)参考Kozak一致性规律,即起始密码子位点符合A/GCCATGG。

(4)不要忽略反义读框。

4、染色体定位

根据基因组图谱对序列进行染色体定位和浏览其基因组上下游基因。具体方法为:(1)进行Genomic BLAST搜索。(2)通过“Genome view”观察基因组结构。(3)点击相应染色体区域,通过表意图(ideogram)和相应区域上下游的基因进行精确定位。

5、基因结构分析

根据基因的mRNA序列及基因组序列,可以进行基因结构的分析。推荐使用BLAST或BLAT(http://genome.ucsc.edu/cgi-bin/hgBlat?command=start) 进行分析。由于真核生物转录后内含子将被剪切,因此将mRNA和基因组进行比对以后,会发现mRNA的每个外显子与基因组序列片断匹配,根据这些片段可以判断外显子的数目和大小。外显子和内含子具体边界的确定,可以参考GT/AG一致性规则。BLAT的结果直接显示外显子数目、大小及边界。

6、基因上游调控区分析

(1)启动子预测:推荐使用冷泉港开发的FIRSTEF程序(http://rulai.cshl.org/tools/FirstEF/)进行启动子预测。用RT-PCR等实验方法获得的mRNA往往缺少完整的 5’端,采用FirstEF 程序可以对第一外显子(尤其是非编码的第一外显子)和CpG相关启动子进行预测。

方法:以FastA格式输入起始密码子上游序列。

(2)转录因子结合位点分析:推荐使用TFSEARCH程序(http://www.cbrc.jp/research/db/TFSEARCH.html)及MATCH程序

http://www.gene-regulation.com/pub /programs.html#match)对转录因子数据库TRANSFAC(http://transfac.gbf.de/TRANSFAC/)进行搜索,寻找可能的转录因子结合位点。

方法:输入起始密码子上游序列。结果将给出很多可能的转录因子结合位点,注意选择其中分值较高的位点。

(二) 蛋白质序列分析

1、跨膜区预测

各个物种的膜蛋白的比例差别不大,约四分之一的人类已知蛋白为膜蛋白。由于膜蛋白不溶于水,分离纯化困难,不容易生长晶体,很难确定其结构。因此,对膜蛋白的跨膜螺旋进行预测是生物信息学的重要应用。

推荐使用TMHMM软件(http://www.cbs.dtu.dk/services/TMHMM/)对蛋白进行跨膜预测。TMHMM综合了跨膜区疏水性、电荷偏倚、螺旋长度和膜蛋白拓扑学限制等性质,采用隐马氏模型(Hidden Markov Models),对跨膜区及膜内外区进行整体的预测。TMHMM是目前最好的进行跨膜区预测的软件,它尤其长于区分可溶性蛋白和膜蛋白,因此首选它来判定一个蛋白是否为膜蛋白。所有跨膜区预测软件的准确性都不超过52%,但86%的跨膜区可以通过不同的软件进行正确预测。因此,综合分析不同的软件预测结果和疏水性图以获得更好的预测结果。

方法:输入待分析的蛋白序列即可。

2、信号肽预测

信号肽位于分泌蛋白的N端,当蛋白跨膜转移位置时被切掉。信号肽的特征是包括一个正电荷区域、一个疏水性区域和不带电荷但具有极性的区域。信号肽切割位点的-3和-1位为小而中性氨基酸。

推荐使用SignalP软件2.0版(http://www.cbs.dtu.dk /services/SignalP-2.0/)对PDCD5N端序列进行信号肽分析。SignalP2.0根据信号肽序列特征,采用神经网络方法或隐马氏模型方法,根据物种的不同,分别选择用真核和原核序列进行训练,对信号肽位置及切割位点进行预测。信号肽切割位点预测用Y-score maximum来判断,对是否分泌蛋白用mean S-score来判断:如果mean S-score大于0.5,则预测为分泌蛋白,存在信号肽,但II型跨膜蛋白的N端序列可能被错误预测为分泌蛋白的信号肽。

方法:输入待分析的蛋白序列,如为原核基因选择原核训练集,否则选择真核训练集。

3、亚细胞定位预测

亚细胞定位与蛋白质的功能存在着非常重要的联系。亚细胞定位预测基于如下原理:(1)不同的细胞器往往具有不同的理化环境,它根据蛋白质的结构及表面理化特征,选择性容纳蛋白。(2)蛋白质表面直接暴露于细胞器环境中,它由序列折叠过程决定,而后者取决于氨基酸组成。因此可以通过氨基酸组成进行亚细胞定位的预测。

推荐使用PSORT(http://psort.nibb.ac.jp/)II 软件对PDCD5蛋白的细胞内定位进行预测。PSORT将动物蛋白质定位于10个细胞器:(1)细胞浆,(2)细胞骨架,(3)内质网,(4)胞外,(5)高尔基体,(6)溶酶体,(7)线粒体,(8)胞核,(9)过氧化物酶体(peroxisome)和(10)细胞膜。

相关文章

Science揭示“第三杀手”帕金森相关蛋白损伤大脑细节

此前,对于帕金森的基础性研究已经发现,α-synuclein(α-突触核蛋白,αS)是一种与帕金森症发生密切相关的蛋白质。当该蛋白在神经细胞内错误折叠会形成路易小体,积累过剩容易损伤神经细胞。这次,来......

遗传发育所在水稻联会复合体结构研究中取得新进展

减数分裂过程中,配对的同源染色体间要形成拉链状的联会复合体。虽然联会复合体在结构上具有高度保守性,但其蛋白质序列的保守性却很低。目前已鉴定的联会复合体相关蛋白,在真菌、动物和植物之间几乎没有同源性。中......

蛋白质序列中可能存在的Zipf定律

摘要:本文介绍了蛋白质序列中可能存在的Zipf定律。......

用非线性预测方法研究蛋白质序列的特性(Ⅱ)

摘要:为了研究蛋白质序列的内在特性,通过非线性预测方法将蛋白质序列和随机序列以及混沌序列进行比较。前期研究可知:每条蛋白质序列的每个特征序列的误差比值(E2D)图具有特异性,和随机序列的E2D图相比具......

一种新颖的蛋白质序列可视化模型

摘要:利用相似规则、互补规则和分子识别理论建立一种氨基酸数字编码模型用于研究序列特征、功能预测。给出一种新的基于元胞自动机的蛋白质序列图像生成方法,其优点是考虑了氨基酸前后的相互作用,生成的图像与基因......

蛋白质序列中的关联规则发现及其应用

摘要:随着蛋白质序列-结构分析中使用的机器学习算法越来越复杂,其结果的解释和发现过程也随之复杂化,因此有必要寻找简单且理论上可靠的方法。通过引入原理简单、理论可靠、结果具有很强实际意义的关联规则发现算......

基于最大频繁序列的蛋白质分类算法

摘要针对现有基于频繁模式的分类算法未考虑完全频繁模式所产生的大量无效序列,提出了一种基于最大频繁序列的蛋白质分类算法,此算法每一类都以独有的最大频繁式作为代表,执行模式裁减和测试数据分类实验表明该算法......

基于频繁模式的蛋白质序列分类

摘要:蛋白质序列的分类是预测新蛋白质序列的结构和功能的重要方法,已有的方法主要基于序列比对或概率后缀树。文章设计一种基于频繁模式的蛋白质序列分类算法CFS,使用每类数据独有的频繁模式代表该类,然后应用......

递归迭代函数系统对detailedHP模型的蛋白质序列的混沌游戏表示的模拟①

摘要:蛋白质序列的可视化表示———混沌游戏表示呈现出了分形特征。根据分形的产生机理,用递归迭代函数系统模型模拟了蛋白质序列的混沌游戏,并通过比较递归迭代函数系统的吸引子的不变测度与混沌游戏表示的测度之......

蛋白质的分组重量编码及在结构型预测的应用

摘要:从氨基酸的物化特性出发,利用物理学中“粗粒化”思想,提出了一种蛋白质序列的分组重量编码方法(EncodingBasedonGroupedWeight,简记为EBGW),并结合组分耦联算法进行结构......