发布时间:2015-07-17 14:49 原文链接: 首个国家基因库已有840万份样本10月有望投用

  6月30日,深圳盐田,热浪滚滚。北山道136号,几栋白色的建筑并不起眼。庞大的数据如同螺旋一般,每天从这里源源不断地涌出。偶尔从门口经过的人也许无法想象,这些数据有一天会完全改变他的生活。全球最大的基因组研究中心、深圳华大基因就藏在这些白色建筑里,“生产”出全球40%的基因测序数据。

  离此约20公里处,一块11.6万平米的巨大“梯田”正在深圳大鹏街道下沙片区禾塘仔地块上建起。这里是由华大基因组建及运营的中国首个国家基因库,一期基本完工,样本量达840万份,今年10月有望投入使用。

  基因“国库”:一部要看4万年的高清电影

  华大基因董事长汪建把即将面世的国家基因库形容为每个人的“生物银行”。2015年10月,中国首个国家基因库有望投入使用。“把你个人的东西存在基因库里,我们才是真正的‘国库’。”

  2011年1月,国家发改委批复同意深圳依托华大基因组建国家基因库。同年10月,国家发改委、财政部、工业和信息化部以及当时的卫生部批复,深圳国家基因库由深圳华大基因组建及运营。

  离盐田的华大基因总部约20公里处,一块11.6万平米的巨大“梯田”正在深圳市大鹏街道下沙片区“禾塘仔”地块上立起。

  2002年4月5日,《科学》杂志以14页的篇幅发表了华大基因《水稻(籼稻)基因组的工作框架序列图》,封面是秀美的云南红河哈尼梯田。正在建设的国家基因库,建筑外形基本参照庞大的哈尼梯田,分两期建设,目前一期基本完工,样本量已达840万份。

  “未来,你可以把你的血液、细胞、尿液、meta、DNA、RNA存在这里,动植物、海洋、微生物组织也会存起来。”按规划,2015年前建设完善生物资源样本库及配套的自动化样本处理流水线,预计将保存3000万份可溯源的生物实验样本。“人的样本,特别是与医学健康相关的样本会占主导。”

  与此同时,生物信息数据库将储存与样本相关的所有数据,包括基因组、转录组、蛋白组学、表型数据,高性能计算储存集群系统则作为信息化平台支撑。

  这个建设中的基因“国库”,数据规模到底有多大?“以一部高清电影4G B、时长1.5小时算,如果把国家基因库当做一部高清电影,要看上4万年。”国家基因库负责人曾有一个形象的形容。

  测序工厂:100多台测序仪24小时运行

  基因“国库”听上去很高大上,但汪建把基因学研究与产业化应用,自嘲为一件很“俗”的事,“我们是贪生怕死,就是想先天下之乐而乐”。

  1999年,哥本哈根大学的遗传学博士杨焕明、华盛顿大学的汪建和于军等四人“自作主张”,以中国代表的身份,向人类基因组计划提交注册申请。他们负责的是3号染色体短臂末端的30 M b(兆)碱基测序,仅占总计划的1%。“那时还没有电子屏幕,只能挂起一张10米长3米高的基因图,每天有人拿着笔和尺子在上面一点点填充”。

  6月30日,记者走进位于深圳盐田的华大基因时,早已看不到汪建回忆中的“手工作坊”场景,取而代之的是每天24小时自动化运行的100多台测序仪。

  30岁的陈城超换鞋、穿上白大褂、消毒进入测序机房,他负责样本的上机测序环节。2008年从华师生物系毕业的他,操作起这些外人看不懂的机器来如鱼得水。

  一管血液、一截头发、一口唾液……一份基因样本抵达实验室后,首先被陈城超的同事接收确认,录入信息系统。样品的基因组通常过长,测序仪没法进行一次测序,需要把基因组打断成小片段。

  随后,检测人员从质量和浓度检测样本是否合格。不同样本和测序类型的浓度不一,以无创产前检测为例,因分析数据较少,几纳克即可;如果是肿瘤基因检测,浓度则为几十纳克。

  样本合格后,会送到陈城超的实验室内。由于单分子的信号非常弱,他会先将其在扩增仪上进行扩增。“通俗地说,就是将其复制为大量相同的双螺旋,在D N A两端分别设置接头,当其长成一个簇后,信号就被放大了。”

  陈城超一边解释,一边在小黑板上画出这些“簇”和连接的过程。至此,样本建库完成,等待送到测序仪上进行“上机操作”。

  完成试剂准备工作,陈城超点击“RU N”按钮,测序过程完全自动化运行。“跑”一次后,测序结果将自动上传到大型数据库,有专门人员进行信息分析并发放报告。

  日复一日,庞大的数据如同螺旋一般,源源不断在这条测序流水线上涌出。

  精准医疗:先在基因图谱里寻找“错别字”

  汪建逢人便说,他是华大基因的“大白鼠”。2002年,他被诊断出冠心病。他给自己做了基因检测,发现糖脂及代谢综合征相关基因、心血管及猝死相关基因、肿瘤易感基因等多种易感基因。坦言“怕死”的老顽童汪建,开始针对自己的基因数据,对自己的冠心病精准用药,同时定期预测监控体内生态平衡状况,再通过饮食和锻炼进行调整。

  汪建把自己的遗传蛋白、代谢、菌群、环境、平时的体质评价、运动、营养、睡觉、饮食甚至心情等情况一一记录,连续跟踪10年,已记录下超过14T的多组学健康数据。

  他认为自己的模式就是精准医疗的试验。

  2015年1月,美国总统奥巴马在国情咨文演讲中谈到“人类基因组计划”所取得的成果,并宣布新的项目— 精准医疗计划。“精准医疗计划在时间上是承接人类基因组计划,在本质上是对现行的以药物治疗为主体的医疗进行改革。”南方医科大学基础医学院副院长张文清认为,精准医疗将影响和改变未来的医疗、药物研发和使用,使治疗、诊断和用药更趋精确。

  2013年,国家基因库出生缺陷联盟正式成立。在汪建眼里,超过一半的疾病,都可以通过基因测序得以提前防范和管理。第一类是针对遗传出生缺陷的产前检测,第二类是病毒和细菌的基因检测,如艾滋病、埃博拉、SA RS、结核病等,通过基因测序也能找出“元凶”。此外,很多肿瘤的发生也是基因变异的结果。

  基因测序究竟如何“锁定”疾病?生物科学博士、华大基因总部办公室主任杨碧澄给出一个形象描述:一个D N A的正常表达可以理解为一段文字,如果该文字中出现一个错别字,可能就失去其正确意义。测序就是要与正常序列比对,找出哪个细胞哪里出错。而错误有不同类型,可能是一个错别字,可能是整段话都错了,还可能是一段话跳到了另一个位置。这时,通过测序结果,分析基因突变的部分,从而找到某个疾病对应的基因,方便对症下药。

  知晓基因图谱,只是迈向精准医疗的第一步。“恶性肿瘤的发生往往伴随着众多基因点位的突变。”南方医科大学基因研究所所长马文丽就说,疾病总是外因与内因相结合的产物,恶性肿瘤也不例外。杨碧澄也坦言,基因不是单个作用的过程,而是复杂交互的过程,可能涉及很多性状,需要积累大量数据,才能找出科学解答。

  但基因检测的应用正在加速。深圳国家基因库建成后,这个巨型“生物银行”将为中国生命科学研究和生物产业发展提供基础性和支撑性服务平台,储存和管理中国特有的遗传资源、生物信息和基因数据。同时,以生物资源为依托,形成从资源到科研到产业的全贯穿、全覆盖模式,实现大资源、大数据、大科学、大产业的整合与应用。

相关文章

中国新能源汽车大数据产业大会召开

3月19日,“中国新能源汽车大数据2023年产业大会”在沈阳市举办。大会由沈阳市人民政府和新能源汽车国家大数据联盟(以下简称“联盟”)共同主办。辽宁省副省长姜有为、工信部装备工业一司副司长郭守刚等共同......

中国首次获得遥感数据融合大赛举办权

近日,中国科学院空天信息创新研究院牵头,联合中科星图股份有限公司、中科星图数字地球合肥有限公司与德国慕尼黑联邦国防军大学共同申请,成功获得遥感数据融合大赛(DataFusionContest,DFC)......

如何理解数据是新型生产要素

数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各个环节,深刻改变着生产方式、生活方式和社会治理方式。我国具有数据规模和数据应用优势,积极探索推进......

“数据跟着算力跑”到“算力围着数据转”的嬗变

“摩尔定律被打破后,什么将推动超级计算机性能的发展?”12月13日,在今年的CCFHPCChina2022上,2021年度图灵奖获得者、来自美国田纳西大学和橡树岭国家实验室的杰克·唐加拉教授在演讲的最......

卫生健康信息基本数据编制标准出台,一项面临废止

现发布《集卫生健康信息基本数据编制标准》等2项推荐性卫生行业标准,编号和名称如下:WS/T370—2022卫生健康信息基本数据集编制标准(代替WS370—2012)WS/T811—2022血站信息系统......

“数据驱动的新地学”科学与技术前沿论坛在京举行

10月29至30日,中国科学院学部“数据驱动的新地学”跨学部科学与技术前沿论坛”暨ScienceBulletin第二届地球科学前沿学术沙龙在中国科学院学术会堂举行。此次论坛围绕“数据驱动的新地学”这一......

国家统计局又一数据,这个行业还不稳定

国家统计局服务业调查中心、中国物流与采购联合会10月31日发布数据,10月份,中国制造业采购经理指数(PMI)为49.2%,在调查的21个行业中,有11个位于扩张区间,制造业景气面总体稳定。国家统计局......

我国发布更新第二款全球海洋Argo网格数据集

近日,由上海海洋大学和自然资源部杭州全球海洋Argo系统野外科学观测研究站联合研制的全球海洋Argo网格数据集(简称GDCSM_Argo)在国际Argo官方网站正式发布,这是我国在国际上公开发布并定期......

研究显示:全球50岁以下人群癌症发病率上升

近几十年来,越来越多的50岁以下成年人患上癌症。美国科学家进行的一项研究显示,早发型癌症(50岁之前被诊断出的癌症,包括乳腺癌、结肠癌、食道癌、肾癌、肝癌和胰腺癌等)的发病率,从1990年开始在世界范......

打造面向开放科学的“数据共享”新未来

“对于全球科技期刊来讲,开放科学带来了学术交流模式的变革,从原来传统的学术交流模式,转向新型的学术交流模式。”8月25日,中国科学院文献情报中心副主任、研究馆员张智雄在第十七届中国科技期刊发展论坛“开......