近年来,生命科学进入了“大数据”时代,生命的整体性和疾病的复杂性使得信息化和大数据成为生命科学研究的必然。大数据平台给了研究者从系统层面全面认识生命的机会和机遇,使众多科技人员更有信心地应对复杂生命现象的挑战。然而,当前大数据对医学,特别是临床实践的指导作用显然未达预期。我将就大数据产生和挖掘过程中存在的问题进行探讨。

中国工程院院士 王红阳
首先讨论数据质量。目前诸多研究和公共资源提供了海量数据,但是不同数据的科学价值参差不齐。高质量数据往往具备样本可靠、信息完整、数据结构清晰、系统性多组学多层次等特点,例如TCGA和ICG等。
与此同时,大数据中也充斥着大量重复,缺乏必要注释和低质量数据,这些数据不仅科学价值有限,反而给研究者增添了数据甄别的负担和误用的风险。大数据的质量对于数据产生者,特别是对大型研究计划顶层设计和数据管理提出了更高的要求。
数据体量方面,虽然当前数据给人“够大”的直观感觉,但具体项目实施过程中,公共数据资源仍显得“捉襟见肘”。我们呼唤更大体量、更多维度的高质量数据能够共享,包括特殊病患的样本资源以及新技术生成的数据,如ATAC-seq等,造福人类健康。
大数据催生了计算机领域和医学领域的大合作,而两个领域学科特点与理念的差异阻碍了两者的高效融合。具体表现为计算机领域偏重医学问题建模而相对忽视医学研究进展,以癌症精准分型和标志物发现为例,典型的计算机研究偏爱从零开始的新算法开发,偏向“另起炉灶”,而医学研究者往往更关注在已有临床标志物的基础上的新发现和提升,而后者也更加贴近医学临床实践应用。生物信息学作为连接计算机和生物医学领域的桥梁,在关注两个领域最新进展的同时,更需要准确拿捏和填补两个领域“毫厘”之间的差异,使医学问题定位更加准确,算法更具应用性。
生物医学大数据的规模和产生速度已经超出了传统计算模型处理能力,幸运的是,近年来深度学习算法得到快速发展,其在多维数据整合、特征提取、因果推断等多个应用场景下具有显著优势。
近期的研究已将多种前沿机器学习算法应用于生物医学大数据挖掘,并取得了较好的效果。相信随着不同领域更深度的理解和交叉,新的数据分析技术的应用,大数据必将真正造福人类健康。未来医学研究可在学科交叉与实践迭代中,实现更高效的疾病防控和疾病管理,不断接近预防疾病和治愈疾病的最终目标。
CPHI思享会——第五届医药创新产业年会将于2025年10月16-17日在上海圣诺亚皇冠假日酒店盛大启幕。本次大会以“聚链·领航·增长”为主题,聚焦全球医药创新前沿,涵盖创新药出海、前沿疗法与临床应用......
9月12日,美国商务部工业和安全局(BIS)在联邦公报上发布一项最终规则,根据这一规则,BIS修订了《出口管制条例》(EAR)在实体清单中增加了32个实体,其中中国实体23家。美方称这些公司或机构存在......
8月25日,记者从中国科学院空间应用工程与技术中心获悉,随天舟九号货运飞船上行进入中国空间站的三项空间生命科学实验近日已完成全部在轨实验,成功实现自动培养、在轨给药、显微成像及样品固定等系列操作。实验......
D-index(学科H-index)学者排名指标,仅包括被调查学科的论文和引用值。根据官网介绍,D-index细分为化学,电脑科学,数学,法律,材料科学等26个细分领域。iNature系统地总结了生命......
在一个繁忙的火车站,监控摄像头正全方位追踪站台的情况,乘客流量、轨道占用、卫生状况……所有信息实时传输给中央人工智能(AI)系统。这个系统的任务是帮助调度列车,让它们安全准点进站。然而,一旦有人恶意干......
8月12日,由内地与港澳15家高校和科研机构共同发起的生命科学开放联盟(以下简称联盟),在香港正式宣告成立。中国科学院院士、复旦大学校长金力,中国科学院院士、西湖大学校长施一公,香港科技大学校长叶玉如......
丹纳赫(Danaher)近日宣布一项高层人事变动,拥有跨界技术背景的MartinStumpe博士将于2025年10月1日正式出任集团首席技术官及首席人工智能官,直接向总裁兼首席执行官RainerBla......
当地时间2025年7月28日,中枢神经系统疾病治疗方法开发商MapLightTherapeutics宣布完成3.725亿美元的超额认购D轮融资。由高盛另类投资公司的生命科学公司和Forbion共同领投......
为推动地方数据集团创新发展,服务全国一体化数据市场培育建设,7月23日,国家数据局组织召开座谈会。国家数据局党组书记、局长刘烈宏出席会议并讲话,局党组成员、副局长沈竹林、夏冰、余英出席会议。局党组成员......
会议介绍 生物医药领域正在以前所未有的速度推动全球医疗和科技的深刻变革。从探索基因奥秘到定制化治疗方案,再到开创细胞治疗新纪元,这一领域为患者开辟了全新的治疗路径,也为未来医疗创新带来了无限......