发布时间:2018-06-26 09:41 原文链接: 科学家公布人类基因数量引发争议

在人类基因组项目完成十多年后,辨别基因仍是一项挑战。

图片来源:Alan Phillips/Getty

估测人类基因组中基因数量的最早尝试涉及喝醉酒的基因学家、美国纽约冷泉港的一个酒吧以及纯粹的臆测。

那是2000年。当时,人类基因组序列草图仍在绘制中。基因学家正在打赌人类拥有多少基因,赌注从几万个到几十万个不等。近20年后,掌握了真实数据的科学家仍无法就这一数量达成一致。在他们看来,这一知识鸿沟阻碍了发现相关疾病突变的努力。

填补这一空白的最新努力利用了来自上百个人类组织样本的数据,并于日前发表在预印本服务器BioRxiv上。它包括近5000个此前未被发现的基因,其中近1200个携带制造蛋白质的指令。2.1万余个蛋白质编码基因的总数和此前估测(认为这一数字在2万左右)相比有大幅提高。

不过,很多遗传学家仍不相信所有最新提出的基因都能经得起仔细推敲。他们的批评强调了辨别新基因甚至定义一个基因的难度。

“20年来,人们一直致力于此项研究,但我们仍未获得答案。”带领团队开展最新研究的约翰斯·霍普金斯大学计算生物学家Steven Salzberg表示。

2000年,随着基因组学界就有多少人类基因将被发现的问题展开热烈讨论,Ewan Birney发起了GeneSweep竞赛。如今身为欧洲生物信息学研究所(EBI)联合所长的Birney在一年一度的基因组学会议期间,在一间酒吧里最先下注。

这场竞赛最终吸引了1000多人参与以及3000美元的累积赌注。关于基因数量的赌注从多于31.2万个到不足2.6万个不等,平均在4万左右。当时,估测的数量范围已经缩小,但仍存在不同意见。

基因数量依据被分析的数据、利用的工具以及剔除错误信息的标准而有所不同。最新计数利用了一个更大的数据集、另一种不同于此前努力的计算方法,以及定义基因的更宽泛标准。

Salzberg团队利用了基因型组织表达(GTEx)项目的数据。该项目对从几百具尸体上采集的30多个不同组织的RNA进行了测序。RNA是DNA和蛋白质之间的“媒介”。研究人员想辨别出编码蛋白质的基因以及不编码蛋白质但仍在细胞中扮演重要角色的基因。为此,他们组装了GTEx的9000亿个微小RNA片段并将其同人类基因组进行比对。

不过,仅一段DNA被表达为RNA并不意味着它是一个基因。为此,该团队尝试利用各种标准过滤掉噪音。例如,他们将获得的结果同来自其他物种的基因组进行比较,并且推断远亲生物共享的序列可能在进化过程中被保存下来,因为它们是有用的,基因也可能如此。

研究人员获得了21306个蛋白质编码基因和21856个非编码基因——远多于两个最广泛使用的人类基因数据库中的基因数量。由EBI维护的GENCODE基因集包括19901个蛋白质编码基因和15779个非编码基因。由美国国家生物技术信息中心(NCBI)管理的RefSeq数据库拥有20203个蛋白质编码基因和17871个非编码基因。

NCBI基因组研究人员、RefSeq 之前的负责人Kim Pruitt表示,出现这一差异的部分原因可能是Salzberg团队分析的数据量不同。不过,还有另外一个重要差异。GENCODE和RefSeq均依赖于人工管理——有人评审每个基因的证据并且作出最终判断。Salzberg团队则完全依赖于计算机程序筛选数据。

“如果人们喜欢我们的基因目录,那么或许几年后我们将成为人类基因的仲裁者。”Salzberg说。

不过,很多科学家表示,他们需要更多证据以确信最新目录是准确的。协调GENCODE人工注释工作的EBI计算生物学家Adam Frankish介绍说,他和团队已经扫描了Salzberg团队辨别的约100个蛋白质编码基因。根据他们的估测,仅有1个看上去是真正的蛋白质编码基因。

与此同时,Pruitt小组分析了Salzberg团队公布的约十几个新的蛋白质编码基因,但并未发现任何符合RefSeq标准的基因。一些同看上去属于侵入人类祖先基因组的逆转录病毒的基因组区域重叠,剩下的则属于极少被翻译成蛋白质的其他重复性片段。

不过,Salzberg认为,一些重复序列可被视为基因。一个例子是出现在RefSeq 中并且编码在结直肠癌中过度表达的蛋白质的ERV3-1。Salzberg还承认,位于其团队目录中的新基因有待该团队和其他人确认


相关文章

人与猿类如何在进化中“甩掉”尾巴

猴子有尾巴,而人类和猿类的尾巴却在进化中消失了,是什么在其中起了关键作用?《自然》28日发表的一篇论文,报道了人类和猿类演化掉尾巴的遗传学基础。灵长类动物尾部表型的系统发育树(Ma表示百万年前)。图片......

一步到位沉默一个小鼠胆固醇基因

意大利科学家在一项小鼠研究中展示了无需永久性基因组编辑,也可对一个控制胆固醇水平的基因做到长效抑制。这一靶向表观遗传沉默(不用直接改变DNA序列就可改变基因功能)的效果在小鼠中持续近1年,令循环胆固醇......

安捷伦一季度营收缩水5.6%,仍稳坐16.6亿美元大关

2月27日,安捷伦科技公司(纽约证券交易所代码:A)公布截至2024年1月31日的2024财年第一季度财报。第一季度营收为16.6亿美元,与2023年第一季度相比下降5.6%,核心营收(1)下降6.4......

多样化菌群共存现象有了新解释

近日,中国科学院深圳先进技术研究院合成生物学研究所副研究员王腾团队在《自然—通讯》发表研究成果。该研究从理论上揭示了微生物群落中广泛存在的水平基因流动可以帮助竞争性微生物群体突破物种多样性“极限”,促......

与DNA损伤相关的145个基因“现形”

研究示意图。图片来源:《自然》杂志据最新一期《自然》杂志报道,通过对近1000只转基因小鼠开展研究,英国科学家发现了100多个与DNA损伤有关的关键基因。这项研究为开发癌症和神经退行性疾病个性化疗法提......

关节炎滑膜组织基因表达调控图谱,揭示关节炎风险位点的功能特征

关节炎是一种常见的关节病变,主要表现为滑膜增生、软骨变性及软骨下骨增生,造成关节功能丧失和生活质量下降,在60岁以上人群发病率超过50%,全球范围内有数亿人受到影响。全基因组关联研究(Genome-w......

直接面向消费者的基因检测市场规模、趋势、2032年报告

2022年,全球直接面向消费者的基因检测市场规模为17.2亿美元,预计到2032年将达到76亿美元左右,2023年至2032年复合年增长率为16.10%。市场概况直接面向消费者的基因检测市场是一个快速......

Nature最新文章:基因测序游戏规则正在被改写,速度翻倍,仅需数小时

超高速测序推动基因组诊断快速发展简化的DNA和RNA测序工作流正在帮助临床医生在几天甚至几小时内提供迅速的有针对性的护理    约十年前,澳大利亚墨尔本的默多克......

真还是假?2023年度十大科学流言揭晓

1月21日,“智止流言探求真知——2023年度‘科学’流言求真榜”在北京揭晓。具体包括,基因检测能“剧透”孩子天赋;中国科学家测定月球年龄为20.3亿年;航天员不能是近视眼,因为太空中不能戴眼镜;电水......

最大的海洋微生物基因数据库有助于药物发现

迄今对包括细菌、病毒和真菌在内的海洋微生物基因进行的最全面分析,可为研究人员发现抗生素、追踪气候变化影响和保护濒危物种奠定基础。1月16日,相关成果发表于《科学前沿》。据《自然》报道,2021年,研究......