发布时间:2016-05-13 16:30 原文链接: GEN:专家解析大数据研究对于癌症治疗的焦点问题

  在今年一月,美国副总统拜登在瑞士达沃斯世界经济论坛的科学家小组讨论中提出了一系列攻克癌症的具体要求。其中,怎样通过大数据的收集、分析与应用来研究、预防与治疗癌症成为了一个格外引人注目的话题。

  专家:

  Keith Perry:圣裘德儿童研究医院高级副总裁和首席信息官

  Narayan Desai:圣何塞通信公司爱立信计算机科学家

  Nevann Krogan:加州大学旧金山分校细胞和分子药理学教授

  Trey Ideker:Ph.D,UCSD计算生物学和生物信息中心创始人和UCSD医学部医学遗传学主任

  大数据的“大”意味着研究者所积累数据的巨大体量,以及这些数据的重要性与正确分析之后可能揭示的大量事实。不论哪种情况,大数据研究都能在实践中通过对大量数据集的分析来确定数据的变化趋势、找到数据间关联并发现数据的运作模式。

  大数据对于癌症研究具有不容忽视的积极作用,结合癌症研究过程中巨大的样本量,大数据分析可以发现在小样本量实验中通常遭到忽视的细节问题。然而除了数据的巨大体量之外,几位专家提出了大数据研究所具备的其他特点。

  当Keith Perry还在休斯顿安德森癌症中心工作的时候,他便提出了大数据不仅仅在于大,大数据研究还应该包含一下三个特征:数据类型的多样性,数据产出的速度以及数据集成的程度。“目前,由于具体研究项目与研究部门的不同,我们绝大多数的数据都是相对孤立的。”Perry认为相对孤立数据的集成将在极大程度上发挥这些数据的潜力。

  Narayan Desai在2015年的一篇Nature文章中指出基因组学将不得不解决到底需要生产多少数据的基本问题。全球数据的收集与分析能力有限,有限的能力需要以最高的效率加以利用。正因为测序技术的普及,大量的基因组研究机构如雨后春笋般以一种较为分散的方式兴起,正因为这些研究机构的分散性,上述问题变得更加难以解决。

  隐蔽的缺陷

  目前,一些科学家正致力于将分散的测序数据加以整合,创造性地利用已有数据对临床治疗进行指导。

  Nevann Krogan教授认为与大部分遗传学家所认识到的情况相比,基因组学已经在事实上使我们更加接近了癌症治疗的革命。

  “测序人员说只要我们投入更多的钱到测序中我们就能得到更加清晰的答案。”Krogan说,“我们对此表示否定,我们已经接近饱和的数据并不能给我们的研究带来多大进展。”

  尽管测序数据犹如潮水般上涨,基因检测在癌症治疗实践过程的突破仍然进展缓慢。这一现象存在的一大重要原因就是大量堆积的新数据仅仅能够证明癌症惊人的多样性,甚至仅仅是一种单一的肿瘤就包含着上千种基因突变。这种情况下便更需要研究人员准群分辨促使癌症发生的突变与那些对癌症的发生并没多少影响的突变。

  Krogan博士和他的同事们相信除了大量积累数据之外,研究人员需要对数据间既有的潜在联系投入更多的关注。

  与加州大学圣迭戈分校的研究人员一致,Krogan博士也于2015年3月在Molecular Cell上提出了癌细胞地图倡议(The Cancer Cell Map Initiative,CCMI)。

  CCMI致力于揭示癌症基因间复杂相互关系的系统性证据,阐明癌症与常规疾病及其他健康状况本质上的差异并据此绘制癌细胞中正常和突变基因及蛋白间的“线路图”。参与这一倡议的其他成员还包括旧金山的格莱斯顿研究所、加州大学旧金山、圣地亚哥分校临床和转化研究所以及赛默飞世尔科技公司。

  样本关联性分析

  CCMI结合了UCSD专家生物医学大数据方面的杰出知识与UCSD细胞结构与功能的领先研究方法。UCSD计算生物学和生物信息中心创始人和UCSD医学部医学遗传学主任Trey Ideker博士说“我们已经拥有的足够的数据,我们现在的项目瓶颈是如何解读这些癌症基因组数据。”

  在2015年的UCSD基因组学节上,Trey Ideker,博士指出对癌症基因组的大量测序已经证实了超过2万个癌症相关基因,但是由于基因相互作用网络相关知识的缺乏,这些癌症基因组信息的有效分析便显得十分困难。正如Ideker博士所说的“没有任何两个癌症病人的肿瘤在基因水平有着完全相同的组成。”

  Ideker博士及其同事认为生物信息学将会帮助解决这一难题。

  在2013年出版的Nature Methods上,Ideker博士及其同事指出癌症基因组图谱计划(The Cancer Genome Atlas ,TCGA)与国际癌症基因组协会(the International Cancer Genome Consortium ,ICGC)已经开始了对数千个肿瘤样本的基因组信息多层次系统性分析。具体包括mRNA与microRNA的表达,DNA拷贝数与甲基化分析以及DNA测序。文章的作者们指出诸如TCGA 与ICGC的工作可能会对某些更有野心的工作起到促进作用。

  基因表达子网络分析

  为了满足癌症大数据研究对数据集成方法的需求,UCSD团队与其他学者已经对已知的几种通路数据库与子网络相关蛋白编码基因进行了表达水平的集成分析。与以往简单罗列不同基因与蛋白的方式不同,这种方法揭示了不同基因与蛋白表达局部网络的聚集运作方式。

  正如该项目的研究人员所说,这类子表达网络分析工作可以鉴定各种临床病人的基因表达差异。基因表达子网络分析不同于常规的数据分析,具有解释相关信号网络内基因表达差异的能力。除了上述特点之外,基因表达子网络分析仍然需要大量的生物信息学、统计学和相关研究机构的支持,通过这种方式已有数据的潜在价值能够充分地体现。

  预后影响

  大量的实验证据表明基因表达网络分析对于预后有着重要的影响,UCSD研究人员在慢性淋巴细胞白血病领域的研究证实了上述基因表达子网络分析对于大量病人具有有效的预后能力,减少临床医师在慢性淋巴细胞白血病患者诊断过程中产生的分歧,有效提高疾病的诊断与治疗水平。这种预测性的基因表达子网络分析根据基因表达水平的不同产生一定的差异,直到治疗之前显示出一致性。

  UCSD研究人员认为他们的分析技术对于研究癌症的演变与临床慢性淋巴细胞白血病治疗策略的开发具有十分重要的作用。利用生物信息学的相关技术,研究人员能够准确地挖掘庞大数据具备的实际意义。

相关文章

第七批新职业聚焦三个“新”

22日,记者从人力资源社会保障部举办的新闻发布会上了解到,第七批新职业正式发布,包括17个新职业、42个新工种。人力资源社会保障部职业能力建设司副司长王晓君在发布会上介绍,这次发布的新职业和新工种,反......

2024年云南省大数据产业发展试点示范项目公示

根据《关于组织2024年云南省大数据产业发展试点示范项目申报工作的通知》(设施〔2024〕210号),在企业申报和州市推荐基础上,经部门审核、专家评审等工作程序,现将我省2024年大数据产业发展试点示......

美科学家:大数据驱动的健康将革新医疗范式

“利用每个人的基因组学图谱和表型组学测量来生成一个独特的‘可操作的可能性’列表。在大多数情况下,这些积极主动的行为,经过临床研究验证,将优化健康,或防止/阻止躯体和大脑从健康向疾病的演变。当疾病演化发......

数智共生开创数字经济新未来——2024中国国际大数据产业博览会观察

8月30日,2024中国国际大数据产业博览会(以下简称“数博会”)在贵阳圆满落幕。从电力人工智能(AI)机器人到高空发电,再到月球大模型,每一年的数博会都有黑科技、新成果惊艳世界,今年也不例外。本届数......

科技赋能多地做好防汛救灾应急指挥通信保障工作

近日,针对华南及长江中下游地区多地遭遇暴雨洪涝灾害,一些地方遭遇断路断网断电极端情况,应急管理部持续加强大数据监测预警,统筹开展应急通信装备预置备勤,深化演练拉动,强化科技赋能,着力提升汛期应急指挥通......

工信部:加速推进大数据、人工智能等研发应用

国新办于4月18日(星期四)上午10时举行新闻发布会,工业和信息化部新闻发言人、总工程师赵志国表示,下一步,工信部将围绕高质量发展这个首要任务,进一步巩固提升信息通信业竞争优势和领先地位。一是夯基础。......

司法部:经营者不得实施“价格歧视”“大数据杀熟”

财联社4月9日电,国务院新闻办公室举行国务院政策例行吹风会,介绍《中华人民共和国消费者权益保护法实施条例》有关情况。司法部立法二局负责人郭启文在会上表示,在立法过程中,司法部与市场监管总局紧密合作,聚......

多部门联合开展全国数据资源调查

国家数据局19日发布消息,为摸清数据资源底数,加快数据资源开发利用,更好发挥数据要素价值,国家数据局、中央网信办等部门联合开展全国数据资源情况调查,调研各单位数据资源生产存储、流通交易、开发利用、安全......

烟台新增7家省级数据开放创新应用实验室

近日,山东省大数据局印发《关于公布山东省数据开放创新应用实验室名单(第三批)的通知》(鲁数字〔2023〕59号),烟台智慧城市大数据研究院、陆海空间(烟台)信息技术有限公司等7家企事业单位获批。截至目......

2023年大数据产业发展示范名单公示

根据《工业和信息化部办公厅关于组织开展2023年大数据产业发展示范申报工作的通知》(工信厅信发函〔2023〕187号),经企业自主申报、地方推荐、专家评审等环节,形成了2023年大数据产业发展示范名单......