最新结果使用了数百份人体组织样本的数据,并于5月29日发布在BioRxiv预印本服务器上。它包含了近5000个以前未被发现的基因,其中近1200个携带了制造蛋白质的指令(carry instructions for making proteins)。总的来说,与先前估计的约2万个蛋白质编码基因数目相比,本次统计有所上升,总数为超过2.1万个

DOI: https://doi.org/10.1101/332825

然而,许多遗传学家并不确信,所有新提出的基因都将经得起严密的审查。他们的批评也凸显了识别并定义新基因的难度之大。

领导本次基因数目统计的生物学家Steven Salzberg说:“人们在这方面已经努力了20年,但我们仍然没有答案。”

最终答案?

2000年,随着基因组学界对人类基因数量的争论, Ewan Birney(目前为英国Hinxton欧洲生物信息学研究所[EBI]所长)发起了基因竞赛。他在每年一度的遗传学会议上于一个酒吧里进行了第一次投注,这次比赛最终吸引了1000多名参赛者和3000美元的奖金。对基因数量的押注从超过312,000个到略低于26,000个不等,平均约为40,000个。之后,估计的范围在缩小,大致范围在19000到22000之间,但仍然存在分歧。

Source: M. Pertea & S. L. Salzberg

基因计数可以根据被分析的数据、使用的工具和剔除假阳性的标准而变化。最新的统计使用了更大的数据集和不同于先前的计算方法,以及更广泛的基因定义标准。

Salzberg的研究小组使用了来自基因型组织表达( GTEx )项目的数据,该项目对数百具死尸的30多个不同组织的RNA进行了测序(RNA是DNA和蛋白质之间的中介)。为了鉴定编码蛋白质的基因和那些在细胞中不编码但仍起重要作用的基因,他们组装了GTEx的9000亿个微小RNA片段,并将其与人类基因组对齐。

然而,仅仅因为一段DNA表达为RNA,并不一定意味着它就是一个基因。所以这个小组试图用各种标准滤除噪音。例如,他们将研究结果与其他物种的基因组进行了比较,认为远亲生物共享的序列很可能由于进化而得以保留(因为它们具有功能性),而且很可能是基因。


最终,研究小组留下了21,306个蛋白质编码基因和21,856个非编码基因,远远超过两个最广泛使用的人类基因数据库(由EBI维护的GENCODE基因组包括19,901个蛋白质编码基因和15,779个非编码基因以及由美国国家生物技术信息中心管理的数据库RefSeq列出的20,203个蛋白质编码基因和17,871个非编码基因)。


前RefSeq负责人Kim Pruitt认为,造成这种差异的原因一部分是由于Salzberg团队分析的大数据量;另外一个主要的区别是,GENCODE和RefSeq都依赖人工处理——人为查看每个基因的证据并做出最终决定,而Salzberg的小组则完全依靠计算机程序来筛选数据

“如果人们喜欢我们的基因列表,那么也许几年后我们将成为人类基因的仲裁者。” Salzberg说。

Illustrated by Jeremy Dimmock. via Pacific Standard

何为基因的定义标准?

需要指出的是,许多科学家仍坚称,他们需要更多的证据才能确信这份清单的准确性。协调GENCODE人工注释的EBI计算生物学家Adam Frankish说,他和他的团队已经扫描了Salzberg团队鉴定的大约100个蛋白质编码基因。据他们评估,其中只有一个似乎是真正的蛋白质编码基因。

Pruitt的团队成员研究了Salzberg小组的十几个新的蛋白质编码基因,但没有发现任何符合RefSeq标准的基因。有些与基因组中似乎属于侵入我们祖先基因组的逆转录病毒的区域重叠;另一些属于其他重复性延伸(repetitive stretches),很少被翻译成蛋白质。

但是Salzberg认为一些重复序列可以被认为是基因。ERV3–1就是一个例子,它出现在RefSeq中,并编码在结直肠癌中过表达的蛋白质。同时Salzberg也承认,他团队名单上的新基因将需要他们自己和其他人的验证。”

最令人困惑的是基因定义的变化和不精确。生物学家过去认为基因是编码蛋白质的序列,但后来发现一些非编码RNA分子在细胞中有重要作用。这一基因判定的标准争议也解释了Salzberg计数和其他计数之间的一些差异。

重要意义

准确统计所有人类基因对于揭示基因与疾病之间的联系非常重要。Salzberg指出,不计其数的基因经常被忽视,即使它们含有致病突变。但是仓促地将基因添加到主列表中也会带来风险。一个错误的基因将会转移遗传学家对真正问题的注意力。

Pruitt补充道:“生物学是复杂的。数据库与库之间的基因数量不一致对研究人员来说仍然是个问题,人们还在寻求一个最终的答案。”


相关文章

鸟儿唱歌为何差异这么大

图为在南非夸祖鲁-纳塔尔省理查德湾以西的灌木丛中拍摄到的一只红额钟声拟鴷。图为在南非豪登省比勒陀利亚东北部保护区拍摄的一只黄额钟声拟鴷。图片来源:AlexKirschel/《自然·通讯》科技日报北京4......

科学家研发国际首个整合宏微观基因组综合分析工具

近日,记者从中国海洋大学海洋生物遗传学与育种教育部重点实验室、方宗熙海洋生物进化与发育研究中心获悉,中国工程院院士包振民和教授王师团队在基因组系统解析工具开发方向取得重要进展。据悉,团队开发出国际首个......

新方法揭秘微生物“生命暗物质”

微生物具有合成多种天然产物的能力。但在微生物合成天然产物时,大量合成基因仍处于“沉默”状态。它们的产物被称为微生物“生命暗物质”。如何有效激活并挖掘这些“生命暗物质”?近日,中国科学院深圳先进技术研究......

“唤醒”沉默的基因新方法揭秘微生物“生命暗物质”

微生物具有合成多种天然产物的能力。但在微生物合成天然产物时,大量合成基因仍处于“沉默”状态。它们的产物被称为微生物“生命暗物质”。如何有效激活并挖掘这些“生命暗物质”?近日,中国科学院深圳先进技术研究......

遗传发育所克隆出小麦新型广谱抗白粉病基因

小麦白粉病是威胁粮食安全的病害之一。当前,提高小麦的白粉病抗性尤其是广谱抗性,是小麦抗病育种领域的主要任务。野生二粒小麦是普通小麦的野生祖先种,经历了长期而复杂的环境演变,积累了丰富的遗传多样性,是现......

基因编辑一针“剪”血,助力角膜新生血管治疗

近日,复旦大学附属眼耳鼻喉科医院主任医师黄锦海、周行涛团队,与暨南大学附属深圳眼科医院教授雷和田团队、温州医科大学附属眼视光医院教授王勤美团队合作,开发了一种针对VEGFA基因的CRISPR/Cas9......

基因编辑家蚕表达外源丝蛋白研究获进展

近日,国际学术期刊PNASNexus在线发表了江苏科技大学生物技术学院/农业农村部蚕桑遗传改良重点实验室教授谭安江团队的研究成果,该研究通过构建多种家蚕丝腺表达体系,实现了蜘蛛和袋蛾丝蛋白等在家蚕内的......

8年恋爱、4篇论文,他们为科研“吵了无数次”

最近几年,每隔一段时间,张冲就会发一个朋友圈,配文为“这一秒钟科学不重要”。配图则为一篇新上线论文截图,她和丈夫薛瑞栋的名字赫然在列。今年情人节,这个系列的朋友圈再次“更新”。此次的配图为一篇Natu......

基因编辑技术揭开海洋硅藻密度感知的谜底

近日,中国科学院海洋研究所藻类生理过程与精准分子育种团队与合作者利用精准基因编辑技术揭示了海洋硅藻对种群密度信号的感知和传递机制。研究成果发表在《国际微生物生态学学会杂志》上。陆地和海洋中的动物会通过......

基因组系统解析工具开发研究取得重要进展

近日,中国工程院院士、南方海洋科学与工程广东省实验室(广州)教授包振民团队开发国际首个整合宏观/微观进化基因组和功能基因组的综合分析工具(PanSyn,https://github.com/yhw32......