发布时间:2012-09-09 12:31 原文链接: ENCODE书写人类百科全书

  

  迄今最详细的人类基因组分析数据出炉。

  一项大型国际计划显示,与青少年在学校掌握的知识相比,人类基因组—— 一个人的遗传信息总和——包含有更多的蛋白质编码基因。当研究人员决定在上世纪90年代晚期对人类基因组进行测序时,他们专注于寻找那些用来确定全部生命所需蛋白质的传统基因。每个基因都被认为是一个DNA的离散片段;而其DNA碱基——作为DNA模块的一些众所周知的“字母”分子——的顺序被认为能够编码一个特定的蛋白质。但让这些破译人类基因组的科学家感到惊讶的是,他们发现,这些编码蛋白质的基因加起来还不到基因组的3%。这在数十亿的其他碱基中几乎是没有任何意义的。

  然而如今一项由美国资助的项目“DNA元素百科全书”(ENCODE)发现,许多这样的碱基都在人类生物学中扮演着一个重要角色——例如,它们有助于确定一个基因何时开启和关闭。并且,这种调节决定了一个细胞如何成为肾脏细胞,而另一个细胞如何成为脑细胞。耶鲁大学生物信息学家Mark Gerstein表示:“与基因相比,基因组中的情况要复杂得多。”

  而这个项目的真知灼见正在帮助研究人员了解遗传和疾病之间的联系。领导ENCODE分析的英国茵格斯顿欧洲生物信息学研究所的生物信息学家Ewan Birney表示:“我们正在以一种方式影响疾病研究,而这在以前将是很难实现的。”

  这是“人类基因组计划”之后国际科学界在基因研究领域取得的又一重大进展。这两个计划之间也有承上启下的关系,在人类基因组计划基本完成的2003年,国际科学界创建了ENCODE计划。它也是一个大型国际合作项目,有多个国家和地区的32个研究机构参与。

  作为ENCODE的一部分,32家机构对147个细胞类型进行了计算机分析、生物化学试验,以及测序研究,旨在搞清构成基因组的30亿个碱基中每个都在做些什么。参与ENCODE的442名科学家在9月5日出版的《自然》杂志上报告说,基因组中大约80%的基因在生物化学上都是活跃的,换句话说,它们都有某种确定的功能。这些DNA碱基有的作为影响基因活性的蛋白质着陆点,有的则能够转化为RNA链从而自行实施功能,例如基因调控。(RNA通常被认为是一种有助于合成蛋白质的中间信使分子,但ENCODE发现,许多RNA都是一种终极产物,且不用来合成蛋白质。)

  ENCODE的研究结果正在改变科学家对基因的认识。它发现大约76%的基因组DNA都会被转录为一种或另一种RNA,这比研究人员之前的预测要多得多。这些DNA包括将近21000个蛋白质编码基因(研究人员一度曾估计人体有超过10万个这样的基因);与8800个小RNA分子及9600个长链非编码RNA分子有关的基因——每个至少有200个碱基的长度;被划为假基因的11224个DNA链——现在知道这些“死亡”基因在某些细胞类型或个体中真的很活跃。此外,尝试确定这些基因的起点和末端,以及编码区域,揭示了基因能够部分重叠,并且具有多个起点和末端。

  这项计划在人们的DNA中发现了400万个位点,它们的作用相当于控制基因活性的开关。这些开关距离被它们调控的基因或近或远,并作用于不同细胞类型的不同结合体上,从而赋予了每个细胞类型以独特的基因组身份。

  ENCODE获得了迄今最详细的人类基因组分析数据,关于这项研究的论文有6篇发表在《自然》杂志上,还有24篇发表在《基因组研究》杂志及《基因组生物学》杂志上。两篇附加的论文则发表在9月5日的《科学》杂志网络版上。在一个数据库中,ENCODE已经创建了一张图谱用以展示所有不同碱基所扮演的角色。资助ENCODE的马里兰州贝塞斯达市国立人类基因组研究所的项目主管Elise Feingold表示:“它就像人类基因组的谷歌地图。”利用谷歌地图,一个人可以选择不同的视图来查看景观的不同方面。同样,在ENCODE图谱中,一个人也能够从染色体水平放大单个碱基,并且在查看这些碱基是否会产生RNA,或是否为DNA调控蛋白质的结合位点之间切换。

  西雅图华盛顿大学的ENCODE研究人员John A. Stamatoyannopoulos认为,这项研究“将改变人们思考以及实际使用人类基因组的方式”。而并未参与ENCODE的加拿大多伦多大学的分子生物学家Mathieu Lupien表示:“ENCODE的数据是最根本的。”

相关文章

因美纳推出5碱基解决方案以驱动多组学发现,开启基因组与表观基因组的同步洞察

• 在美国人类遗传学会(ASHG)年会上,因美纳5碱基解决方案的早期试用客户——伦敦健康科学中心研究所将展示该技术在加速罕见病病例解析方面的强大潜力。• 因美纳专有的5碱基化学技术......

许瑞明研究组合作揭示人逆转座子LINE1靶向整合基因组的重要机制

人类基因组中存在大量具有"跳跃"能力的逆转座子(retrotransposon)序列。在胚胎发育早期、免疫和神经系统等特定阶段和环境下,它们会被激活,发挥重要生理功能;在病毒感染、......

高精度完整基因组助橡胶育种驶入“快车道”

橡胶树是天然橡胶的主要来源。“橡胶树育种面临的主要困难在于周期长和效率低,通过常规育种方法将多抗、高产性状聚合往往需要30~40年。”中国热带农业科学院橡胶研究所研究员程汉告诉《中国科学报》。然而,目......

小麦野生近缘种基因组“密码”被破解

记者宋喜群、冯帆从山东农业大学获悉,该校农学院教授孔令让研究团队首次组装了小麦远缘杂交常用物种中间偃麦草和鹅观草染色体水平的高质量基因组序列,解析了二者基因组结构差异与独立多倍化演化路径,对两者携带的......

烟草分枝发育的“开关基因”被发现

近日,中国农业科学院烟草研究所烟草功能基因组创新团队发现烟草分枝发育“开关基因”,预示着未来作物株型调控有了新靶点。相关研究成果发表在《植物生物技术》(PlantBiotechnologyJourna......

新研究破译薇甘菊入侵基因密码

薇甘菊作为全球十大最具危害的恶性入侵杂草之一,以其惊人的繁殖速度和强大的环境适应性,在亚洲、太平洋地区及中国华南地区造成严重生态破坏。然而,其基因组层面的适应性进化机制长期未被系统解析,制约了科学防控......

研究开发出酵母泛基因组数字模型与代谢网络分析方法

近日,中国科学院大连化学物理研究所研究员周雍进团队与上海交通大学副教授鲁洪中合作,在酵母系统生物学研究中取得新进展。研究团队通过整合分析全球1807株酿酒酵母菌株的基因组与生态位数据,构建了高覆盖度的......

基因组大数据还原野猪横跨欧亚的百万年迁徙历程

近日,中国农业科学院农业基因组研究所农业基因编辑技术创新团队深入解析了中亚野猪种群在跨越欧亚大陆百万年的迁徙历程中适应环境的独特遗传密码,为理解大型哺乳动物如何应对环境变化提供了全新视角。相关研究成果......

基因组密码被解锁:深度学习模型破解非编码区奥秘

人类基因组中超98%的遗传变异位于非编码区,这些变异通过调控染色质可及性、三维构象、剪接加工等多种分子机制影响基因表达,最终导致疾病发生。由于调控机制的复杂性和细胞类型特异性,目前解读非编码变异的分子......

“女娲”基因组计划发布第八项成果

近日,中国科学院生物物理研究所徐涛研究组和何顺民研究组在《基因组、蛋白质组与生物信息学报》杂志发表论文。两位科学家牵头的“女娲”中国人群基因组计划旨在构建中国人群的全基因组数据资源,支撑中国人群的疾病......