发布时间:2018-06-26 12:02 原文链接: 你到底有多少基因?科学家公布人类基因数量引发争议

  在人类基因组项目完成十多年后,辨别基因仍是一项挑战。

  估测人类基因组中基因数量的最早尝试涉及喝醉酒的基因学家、美国纽约冷泉港的一个酒吧以及纯粹的臆测。

  那是2000年。当时,人类基因组序列草图仍在绘制中。基因学家正在打赌人类拥有多少基因,赌注从几万个到几十万个不等。近20年后,掌握了真实数据的科学家仍无法就这一数量达成一致。在他们看来,这一知识鸿沟阻碍了发现相关疾病突变的努力。

  填补这一空白的最新努力利用了来自上百个人类组织样本的数据,并于日前发表在预印本服务器BioRxiv上。它包括近5000个此前未被发现的基因,其中近1200个携带制造蛋白质的指令。2.1万余个蛋白质编码基因的总数和此前估测(认为这一数字在2万左右)相比有大幅提高。

  不过,很多遗传学家仍不相信所有最新提出的基因都能经得起仔细推敲。他们的批评强调了辨别新基因甚至定义一个基因的难度。

  “20年来,人们一直致力于此项研究,但我们仍未获得答案。”带领团队开展最新研究的约翰斯·霍普金斯大学计算生物学家Steven Salzberg表示。

  2000年,随着基因组学界就有多少人类基因将被发现的问题展开热烈讨论,Ewan Birney发起了GeneSweep竞赛。如今身为欧洲生物信息学研究所(EBI)联合所长的Birney在一年一度的基因组学会议期间,在一间酒吧里最先下注。

  这场竞赛最终吸引了1000多人参与以及3000美元的累积赌注。关于基因数量的赌注从多于31.2万个到不足2.6万个不等,平均在4万左右。当时,估测的数量范围已经缩小,但仍存在不同意见。

  基因数量依据被分析的数据、利用的工具以及剔除错误信息的标准而有所不同。最新计数利用了一个更大的数据集、另一种不同于此前努力的计算方法,以及定义基因的更宽泛标准。

  Salzberg团队利用了基因型组织表达(GTEx)项目的数据。该项目对从几百具尸体上采集的30多个不同组织的RNA进行了测序。RNA是DNA和蛋白质之间的“媒介”。研究人员想辨别出编码蛋白质的基因以及不编码蛋白质但仍在细胞中扮演重要角色的基因。为此,他们组装了GTEx的9000亿个微小RNA片段并将其同人类基因组进行比对。

  不过,仅一段DNA被表达为RNA并不意味着它是一个基因。为此,该团队尝试利用各种标准过滤掉噪音。例如,他们将获得的结果同来自其他物种的基因组进行比较,并且推断远亲生物共享的序列可能在进化过程中被保存下来,因为它们是有用的,基因也可能如此。

  研究人员获得了21306个蛋白质编码基因和21856个非编码基因——远多于两个最广泛使用的人类基因数据库中的基因数量。由EBI维护的GENCODE基因集包括19901个蛋白质编码基因和15779个非编码基因。由美国国家生物技术信息中心(NCBI)管理的RefSeq数据库拥有20203个蛋白质编码基因和17871个非编码基因。

  NCBI基因组研究人员、RefSeq 之前的负责人Kim Pruitt表示,出现这一差异的部分原因可能是Salzberg团队分析的数据量不同。不过,还有另外一个重要差异。GENCODE和RefSeq均依赖于人工管理——有人评审每个基因的证据并且作出最终判断。Salzberg团队则完全依赖于计算机程序筛选数据。

  “如果人们喜欢我们的基因目录,那么或许几年后我们将成为人类基因的仲裁者。”Salzberg说。

  不过,很多科学家表示,他们需要更多证据以确信最新目录是准确的。协调GENCODE人工注释工作的EBI计算生物学家Adam Frankish介绍说,他和团队已经扫描了Salzberg团队辨别的约100个蛋白质编码基因。根据他们的估测,仅有1个看上去是真正的蛋白质编码基因。

  与此同时,Pruitt小组分析了Salzberg团队公布的约十几个新的蛋白质编码基因,但并未发现任何符合RefSeq标准的基因。一些同看上去属于侵入人类祖先基因组的逆转录病毒的基因组区域重叠,剩下的则属于极少被翻译成蛋白质的其他重复性片段。

  不过,Salzberg认为,一些重复序列可被视为基因。一个例子是出现在RefSeq 中并且编码在结直肠癌中过度表达的蛋白质的ERV3-1。Salzberg还承认,位于其团队目录中的新基因有待该团队和其他人确认。

相关文章

科学家揭示人类基因组古病毒复活驱动衰老

病毒与人类之间的协同进化关系源远流长,二者之间的交锋从未随时间停止过。在这场旷日持久的战争中,一方面,病毒使人类饱受疾病困扰,甚至死亡,并在此过程中对人类基因组不断地利用与改造;另一方面,人类的免疫系......

首个完整人类基因组序列公布

 由美国国家人类基因组研究所、加利福尼亚大学圣克鲁斯分校、华盛顿大学等机构研究人员领衔的国际科研团队3月31日公布了首个完整、无间隙的人类基因组序列。与这项重大成果相关的6篇论文当天发表在美......

DNA重组广泛存在人类基因组中

科技日报北京7月26日电(记者张梦然)日本理化学研究所综合医学科学中心科学家主导的国际合作研究发现,在人类每个细胞的基因组中,重复数百万次的特定基因组序列重组普遍存在于正常细胞和疾病状态的细胞中。确定......

这一基因组序列除了加速人类进化,还具有另一重要作用

哈佛医学院研究人员团队已经证明,参与人类神经发育的调节增强剂在人类基因组的快速进化部分中尤为常见。这些区域被称为人类加速区,或HAR,包含与其他动物相比人类进化得更快的基因,并被认为有助于大脑皮层的进......

破译“生命天书”20年:基因组时代曙光初现

2001年2月15日,被称为破译“生命天书”的人类基因组序列草图正式发表。20年前,我国科学家参与并完成国际“人类基因组计划”(HGP)1%的任务,使我国成为世界上少数几个能独立完成大型基因组分析的国......

20年前人类基因组测序时遗漏的8%的基因组被补全!

人类基因组计划(HumanGenomeProject,HGP)被誉为生命科学的“登月计划”。2001年,由HGP和Celera公司之间相互竞争而又各自独立完成发表了人类基因组草图,被认为是一大里程碑。......

“人类基因组图谱”20年——30亿碱基“拼出”大科学时代

20年前,2001年2月,被誉为生命科学“登月计划”的“人类基因组计划”(HGP)发布首张人类基因组图谱。这是人类生命科学发展历史上的重要“分水岭”。20年来,曾作为单一学科独立发展的生命科学迎来多学......

日本量子密码通信技术传送人类基因组实验成功

据日本《共同社》获悉,日本东芝公司和日本东北大学东北MedicalMegabank机构(仙台市)近日宣布,成功开展了利用可防止信息被偷窥的新一代技术“量子密码通信”传送人类遗传信息(基因组)完整数据的......

你到底有多少基因?科学家公布人类基因数量引发争议

在人类基因组项目完成十多年后,辨别基因仍是一项挑战。估测人类基因组中基因数量的最早尝试涉及喝醉酒的基因学家、美国纽约冷泉港的一个酒吧以及纯粹的臆测。那是2000年。当时,人类基因组序列草图仍在绘制中。......

你到底有多少基因?科学家公布人类基因数量引发争议

在人类基因组项目完成十多年后,辨别基因仍是一项挑战。估测人类基因组中基因数量的最早尝试涉及喝醉酒的基因学家、美国纽约冷泉港的一个酒吧以及纯粹的臆测。那是2000年。当时,人类基因组序列草图仍在绘制中。......