发布时间:2019-12-16 13:22 原文链接: 基因数据分析的主流软件

基因组测序

在过去的几年中,许多生物的基因组完成了测序工作,如何对如此庞大的原始序列信息进行分析和应用,正是现在最为棘手的问题。大量的基因预测软件和在线工具应运而生。如何广泛而深入地了解并能有的放矢地利用这些工具,已经成为21世纪分子生物学家的必修课。

随着大规模EST和cDNA序列信息的获取,那些基于表达序列同源范围的程序,在基因组注释中的作用日益显著。即使在稀少基因或组织特异性表达的基因中,基因组序列的相关性信息也颇具参考价值。所以利用基因组序列的比对来扩充基因的信息是不可获缺的。特别是在对人类基因组做注释时,与那些相对完整的脊椎动物基因组,如小鼠和鱼类的基因组比较是必不可少的步骤。

许多基因组测序计划正在进行之中,尽管仍存在急需解决的问题,比较基因组学方法(comparative genome approach)被认为是最有应用前景的方法。该方法不仅在基因预测中举足轻重,而且在鉴定调控基因、探索垃圾基因(junk gene)等方面的作用也不容忽视。基因预测软件的用户应该认识到,软件预测结果的可靠性和置信水平都有较大程度的提升。但这些毕竟是预测的结果,分子生物学家,总是试图证明真实存在的蛋白质,及其功能和在组织中的表达状态。

当前,已有超过60种真核基因组测序计划在进程之中。然而生物学方面的相关注释还远不能匹配如此汹涌而至的原始序列数据。当务之急是,研发出更多的准确而快速的分析工具,特别在寻找基因、确定其准确功能等应用方面。许多基因预测程序都可以免费共享。当前,几乎没有一个完美的程序可以解决用户们的所有问题。这就需要用户最大程度地利用主流程序的整合优势。

基因数目预测的主流软件

10年前,研究人员开始预测人类基因的数目,这个数目在很长时间没有明显改变。几年前,最多的预测是100,000;当人类基因组完成测序时,这个数目降至30,000。现在有降至20,000左右。研究人员相信:充分考虑人类的基因组序列和其它生物的基因组序列,可以做出近似的估计。Affymetrix 的计算科学家David Kulp称:“很难对基因数目的诸多估算,做出正误的判别。”分子生物学家正在寻找比预期设想的基因更小的基因。在某种情况下,就一段编码的序列,很难确定是一个基因或是两个基因的重叠。学术界仍不能完全肯定地归类那些编码多种蛋白质的基因,或是仅编码RNA的类似基因的序列。

早在20世纪30年代,George Beadle和Tatum认为每个基因仅仅编码一个蛋白质。几十年来这个说法仍旧沿袭。现在则认为这样的理论过于简单。一个基因可以编译成多种蛋白质,甚至可以转录成RNA。人类基因组中编码蛋白质的区域,称为外显子,约仅占总体DNA的2%。一些简单的基因仅含有一个外显子。有些基因没有功能,称为假基因pseudogene:是与已知基因在不同部位有密切相似性的基因,但由于结构上有加入或缺失,而阻止了正常的转录或翻译,以致使它们无功能。这样就会增加基因预测的数量,造成许多假阳性的结果。

英国剑桥的EBI(European Bioinformatics Institute)的基因预测专家Ewan Birney指出:“目前预测的人类24,500个基因中,有将近3,000个基因可能为pseudogene”。华盛顿大学的计算科学家Michael Brent称:“如果在基因预测中准确地考虑到假基因的存在,那么预测的结果会更为精确。”

目前广泛应用的基因预测方法是:“ab initio”方法,即通过探索DNA序列中特异的区域,如基因的起始区域和终止区域,来进行基因预测。另一种方法是比较基因组学的方法,即根据与已知的蛋白质或基因之间的相似性来发现新的基因。Ab initio程序对于那些类似于基因的序列,也给予归类,所以总的预测数量要高出实际值;而比较的方法不考虑无相似关系的基因,所以估计的基因数目偏低。

大多数人所熟知的一个ab initio程序叫做Gene Modeler是1990年新墨西哥洲大学的Chris Fields和Cari Soderlund研发的。当时是被应用在线虫Caenorhabditis elegans的基因探寻过程中。那时出现的其它软件都稍逊于Gene Modeler。例如,BLAST、FASTA能将DNA序列翻译成蛋白质序列,并与已有的、蛋白质数据进行比较。

这个领域进展迅速,涌现出许多具有专业软件编写技能的预测人员,包括采用Gene Modeler的方法创建GeneID来寻找人类基因的Guigo,以及编写GeneParser软件的Eric Snyder。GeneParser采用了一个称为动力学程序的技术,将外显子与不编码蛋白质的内含子区分开来。Rockville的TIGR(The Institute for Genomic Research)的Steven Salzberg自从1994年,利用ab initio的方法,来改进寻找人类基因的程序。

随后的几年里,他们又研发出几个新的程序。其中的一个是与更为详尽的背景信息相整合,进行基因预测。它可以更加清楚地预测外显子和内含子的大小。另一个程序是同时作用于两个完整的基因组,由计算机完成两者的比较。许多研究人员更倾向于后种方法,原因是相似的物种,更为倾向于拥有相似的基因序列。National Human Genome Research Institute的遗传学家Eric Green说,他及他的同事,已经从13个物种中进行了DNA比较,包括狗、牛、鸡以及河豚鱼。2003年8月14日的Nature上发表了他们对基因、以及调控区域的比较结果。

GENSCAN就是一个经典的基因预测软件。1996年由MIT的Chris Burge开始编写这个软件程序。当时,Burge的许多同事主张采用比较的方法,他们随机选取一个最新测序基因组中基因的DNA序列,与数据库中已存在的基因进行联配。但是Chris Burge认为:“利用人类基因组所获知的信息,可能不能发现某些新的基因。” 他还积极吸取了加州大学计算机科学家David Haussler的经验。很多年前,Haussler就意识到基因预测的问题与语言学家们所遇到的问题相类似。语言学家总是试图寻找语言中句法、语法,以及其它某些特征。

Haussler和其他人都建议从语言学中借助一种叫做Hidden Markov Model,HMM隐马尔科夫模型的统计工具。在序列分析中,HMM通常是多重序列对位排列的概率模型,但也可用于单一序列的周期性模式的模型,比如代表发现基因外显子的模式。在一个多重序列对位排列的模型中,用被称作状态的符号的概率分布代表排列中的每一列字母,插入和缺失用其他状态表示。然后在模型内沿特定的路径从一个状态进入另一个状态,试图匹配一条给定的序列。从每一状态选出下一个匹配符号,记录其概率(频率)和从前一状态进入特定状态的概率(过渡态概率)。

状态与过渡态的概率相乘就得到给定序列的概率。一般来说,HMM是一个对给定字符的统计模型,类似随机状态机器,从每一个状态过渡到另一个就产生一个字符。状态间的过渡态用过渡概率确定。HMM已成为许多基因预测算法的标准。Burge指出:目前存在一整套的能够区分部分基因的模式和规则。比如,几乎所有的基因在起始和终止区域存在特异的序列。外显子的末端通常也存在一个特征序列,可以指导相关的酶切除外显子下游的内含子。Burge已经利用这些规则分析了几百个已知外显子和内含子位置的基因序列。


相关文章

科学家发现调控柑橘“降酸增甜”的关键基因模块

近日,湖北省农业科学院果树茶叶研究所联合华中农业大学园艺林学学院,在柑橘风味品质形成机制研究中取得新进展。研究团队鉴定出一个可同时调控蔗糖积累与柠檬酸代谢的关键基因模块,为柑橘风味品质定向改良提供了新......

多基因激活系统实现茶树茶氨酸含量大幅提升

近日,中国农业科学院茶叶研究所茶树遗传育种创新团队利用多基因激活系统,在茶树根系中实现了茶氨酸生物合成的2个关键基因同步激活,显著提高了茶氨酸含量。相关结果发表在《园艺研究》(Horticulture......

科学家发现首个可直接导致精神疾病的基因

近日,一项发表于《分子精神病学》的研究发现,单个基因GRIN2A可直接导致精神疾病。而此前的研究认为,精神疾病是由许多基因共同作用所致。根据世界卫生组织(WHO)数据,2021年全球每7人中就有1人患......

方显杨研究组与合作者共同开发了一种新型活细胞DNA成像技术

三维基因组互作与表观遗传修饰是基因表达调控的重要因素,其动态变化与细胞生长发育及癌症等疾病的发生发展密切相关。解析染色质在活细胞内的时空动态,是理解基因调控机制的重要科学问题。现有基于CRISPR-C......

胚胎“体检”狙击遗传肿瘤10年诞生百名“无癌宝宝”

11月1日,在长沙举行的第五届湖南省抗癌协会家族遗传性肿瘤专业委员会学术年会上,中信湘雅生殖与遗传专科医院(下称中信湘雅)首席科学家卢光琇宣布,该院第100位通过胚胎植入前遗传学检测(PGT)技术阻断......

我国科研人员找到导致反复“试管”失败的“基因钥匙”

10月16日,记者从中信湘雅生殖与遗传专科医院获悉,该院研究员林戈、副研究员郑伟团队,联合山东大学、上海交通大学医学院等单位的科研团队开展合作攻关,系统揭示了卵子与早期胚胎质量问题导致女性反复“试管”......

衰老如何改变我们的基因

衰老对身体产生的可见影响有时与基因活动的无形变化有关。DNA甲基化的表观遗传过程会随着年龄增长而变得不再精确,造成基因表达的变化。而这种变化与随着年龄增长而出现的器官功能衰退和疾病易感性增加有关。如今......

为何有人衰老更快?揭秘背后的400个基因

有些人比同龄人更显年轻,而有些人看着更显老;有些人年逾九旬仍身心康健,而另一些人早在数十年前就饱受糖尿病、阿尔茨海默病或行动障碍的困扰;有些人能轻松应对严重摔伤或流感侵袭,而有些人一旦住院就再难康复。......

科学家发现玉米耐热关键基因

近日,西北农林科技大学玉米生物学与遗传育种团队联合华中农业大学玉米团队在《植物生理学研究》发表论文。研究初步揭示了ZmGBF1-ZmATG8c模块通过自噬途径调控玉米耐热性的分子机制。随着全球气温持续......

降本提效!我团队研制出系列牛用基因芯片

记者21日从国家乳业技术创新中心获悉,该中心技术研发团队成功研制出奶牛种用胚胎基因组遗传评估芯片和“高产、抗病、长生产期”功能强化基因组预测芯片。该系列基因芯片具有完全自主知识产权,填补了我国基因芯片......