发布时间:2016-01-12 09:55 原文链接: 生物学家借助数据科学破解生命奥秘

  自2000年人类基因组图谱绘制后,生物学研究迈入全新的“组学”时代,科学家们争先恐后地测序各种有机生物的基因组或蛋白质组。

  现在,即使一些简单的实验都会产生大量数据,而从“背景噪音”中获得想要的结果则成为了一大挑战。美国趣味科学网站近日报道指出,计算机技术正帮助科学家们征服这些数据大山,甚至提出科学假设并对新生物学进程进行解释。包括机器学习、计算机模拟等数据科学将革新前沿生物学研究。

  机器学习变革生物学研究

  尽管科学家通过基因和蛋白质测序让我们知晓它们的名字和所处方位,但这些并不能告知它们的功能以及工作原理,我们需要理解这些基因、蛋白质以及中间成分在不同生物过程中的相互作用,从而最终征服癌症、心脏病、阿尔茨海默氏症等多种顽疾,但这会涉及到海量数据。

  例如,科学家希望借用DNA测序等“组学”工具,弄清楚人类哪些基因会受到病毒性流感的影响,但人体包含数万个基因,常见的流感研究也会牵涉多达数千个基因。

  计算机在处理海量数据方面是一把好手,因为其能同时考虑所有重要条件并进行分析。尽管编写程序的人也会犯错,导致程序出错,但计算机能有效地处理大量数据且不会像人一样产生偏见。生物学家们将用计算机来解决这些复杂的问题并定义新的生物学。

  人类也能“教会”计算机在实验数据中发现特定的模式,这种名为“机器学习”的方法首先由“人工智能之父”阿兰·图灵于上世纪50年代提出,借用这一方法,科学家们可以借助已有数据组开发出新算法模式,从而对新数据进行预测。从这一方面来说,机器学习已经革新了生物学研究。

  计算机能模拟大脑“思考”

  美国亚利桑那州立大学生物和健康系统工程学院的斯里·克里希纳博士表示,他们正在借助机器学习的一种——人工神经网络(ANN)进行实验、分析并解决多种疑难问题。

  ANN试图通过模拟大脑神经网络处理记忆信息的方式进行信息处理。例如,谷歌公司的“深度梦想项目(DDP)”图像识别软件就使用了一个功能强大的ANN来对图片分门别类,甚至生成新图片。据国外媒体报道,为了处理网络上数以亿计的图片,谷歌开发的这个ANN系统会先对大量相似图片进行处理和学习,从中找到特定物体独一无二的特征。

  克里希纳的研究团队主要研究免疫系统,目的是找到癌症新疗法。在研究中,他们使用ANN计算模型来研究短的表面蛋白质编码,更好地了解各种免疫细胞如何区分正常(自己的)和反常的(外来的) 事物,从而设计出更好的疫苗和疗法。

  克里希纳团队将多年来研究确定的数以千计蛋白质编码的大数据集分成两组:源于健康人体细胞的正常蛋白质编码与源于病毒、肿瘤和细菌的反常蛋白质编码,接着他们将这些蛋白质编码输入自己研发的一台ANN,新算法能区分出正常/反常的蛋白质编码。

  通过机器学习进行预测

  机器学习在生物学领域最重要的应用是基于大数据进行预测,测试理论猜想。

  亚利桑那州立大学应用数学博士迭戈·丘威尔解释称,如在T细胞生物学领域,弄清楚朝哪个引起病毒感染的蛋白质“开火”对疫苗研发和疾病治疗意义重大,但某个病毒可能与多个蛋白质编码有关,因此,很难通过实验对每个蛋白质编码逐一测试,且测试成本也极其高昂。

  他们现在的解决办法是训练ANN帮助机器学会自有和外来两类蛋白质编码所有重要的生物化学属性,接着要求其“预测”哪种蛋白质编码与外来的蛋白质编码类似,并能被T细胞发现。

  他们用很多病毒蛋白质对这个ANN模型进行了测试,结果发现:这个ANN系统能精确地在病毒内“揪出”大部分能被T细胞激活的蛋白质编码。研究人员也对找到的蛋白质编码进行了测试,证实了这种ANN预测的精确性。使用这种ANN模型,科学家们能快速预测与某个病毒有关的所有重要的短蛋白质编码并进行测试,从而找到疗法或疫苗,而不是逐一猜测然后进行实验。

  聪明地利用机器学习

  随着大数据科学和机器学习自身不断地优化,它们在生物学领域发挥的作用也越来越大:从厘清哪些生物标记结合在一起能最好地探测出疾病,到理解为何只有某些病人能从特定的疗法受益等。

  当然,计算机也不是万能的。大数据科学的最大问题是数据本身。如果组学研究获得的数据一开始就是错的,或者基于伪科学,那么,机器有可能提供错误的结果。还有科学家担心计算机变成数据的“黑盒子”,因为他们对计算机内进行计算和操控的细节知之甚少。

  克里希纳表示,尽管存在这些问题,但大数据和计算机带来的巨大好处将使它们成为科学研究的“好伙伴”。科学家们应时刻保持警惕,聪明地利用计算机,最终借助“机器之眼”来更好地揭示生命的奥秘。

相关文章

中国新能源汽车大数据产业大会召开

3月19日,“中国新能源汽车大数据2023年产业大会”在沈阳市举办。大会由沈阳市人民政府和新能源汽车国家大数据联盟(以下简称“联盟”)共同主办。辽宁省副省长姜有为、工信部装备工业一司副司长郭守刚等共同......

中国首次获得遥感数据融合大赛举办权

近日,中国科学院空天信息创新研究院牵头,联合中科星图股份有限公司、中科星图数字地球合肥有限公司与德国慕尼黑联邦国防军大学共同申请,成功获得遥感数据融合大赛(DataFusionContest,DFC)......

如何理解数据是新型生产要素

数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各个环节,深刻改变着生产方式、生活方式和社会治理方式。我国具有数据规模和数据应用优势,积极探索推进......

“数据跟着算力跑”到“算力围着数据转”的嬗变

“摩尔定律被打破后,什么将推动超级计算机性能的发展?”12月13日,在今年的CCFHPCChina2022上,2021年度图灵奖获得者、来自美国田纳西大学和橡树岭国家实验室的杰克·唐加拉教授在演讲的最......

卫生健康信息基本数据编制标准出台,一项面临废止

现发布《集卫生健康信息基本数据编制标准》等2项推荐性卫生行业标准,编号和名称如下:WS/T370—2022卫生健康信息基本数据集编制标准(代替WS370—2012)WS/T811—2022血站信息系统......

“数据驱动的新地学”科学与技术前沿论坛在京举行

10月29至30日,中国科学院学部“数据驱动的新地学”跨学部科学与技术前沿论坛”暨ScienceBulletin第二届地球科学前沿学术沙龙在中国科学院学术会堂举行。此次论坛围绕“数据驱动的新地学”这一......

国家统计局又一数据,这个行业还不稳定

国家统计局服务业调查中心、中国物流与采购联合会10月31日发布数据,10月份,中国制造业采购经理指数(PMI)为49.2%,在调查的21个行业中,有11个位于扩张区间,制造业景气面总体稳定。国家统计局......

我国发布更新第二款全球海洋Argo网格数据集

近日,由上海海洋大学和自然资源部杭州全球海洋Argo系统野外科学观测研究站联合研制的全球海洋Argo网格数据集(简称GDCSM_Argo)在国际Argo官方网站正式发布,这是我国在国际上公开发布并定期......

研究显示:全球50岁以下人群癌症发病率上升

近几十年来,越来越多的50岁以下成年人患上癌症。美国科学家进行的一项研究显示,早发型癌症(50岁之前被诊断出的癌症,包括乳腺癌、结肠癌、食道癌、肾癌、肝癌和胰腺癌等)的发病率,从1990年开始在世界范......

打造面向开放科学的“数据共享”新未来

“对于全球科技期刊来讲,开放科学带来了学术交流模式的变革,从原来传统的学术交流模式,转向新型的学术交流模式。”8月25日,中国科学院文献情报中心副主任、研究馆员张智雄在第十七届中国科技期刊发展论坛“开......