发布时间:2015-01-21 10:39 原文链接: 闵应骅:大数据时代聊聊小数据

  现在好像人人都爱说“大数据”,就像平时我去开会,不是用大数据分析这个,就是用大数据建构那个。可是我最近看《美国计算机学会通讯》(CACM)上面提到了几次小数据,我觉得大家也有必要了解一下这个有趣的概念。

  什么是小数据?小数据就是个体化的数据,是我们每个个体的数字化信息。比如我天天都喝一两酒,突然有天喝完酒了胃疼,我就想了,这天和之前有何不同?原来,这天喝的酒是个新牌子,可能就是喝了这个新牌子的酒让我胃疼。这就是我生活中的“小数据”,它不比大数据那样浩瀚繁杂,却对我自己至关重要。

  第一个意识到“小数据”重要性的是美国康奈尔大学教授德波哈尔·艾斯汀。艾斯汀的父亲去年去世了,而早在父亲去世之前几个月,这位计算机科学教授就注意到老人在数字社会脉动中的些许不同——他不再发送电子邮件,不去超级市场买菜,到附近散步的距离也越来越短。

  然而,这种逐渐衰弱的状态,真到医院去检查心电图,却不一定能看出来。到急诊室检查的时候,不管是测脉搏还是查病历,这个90岁的老人都没有表现出特别明显的异常。可事实上,追踪他每时每刻的个体化数据,他的生活其实已经明显与之前不同。这种日常小数据带来的生命讯息的警示和洞察,启发了这位计算机科学教授——小数据可以看作是一种新的医学证据,它是“your row of their data”(他们数据中属于你的那行数据)。

  人们爱说,大数据将改变当代医学,譬如基因组学、蛋白质组学、代谢组学等等,不过由个人数字跟踪驱动的小数据,也将有可能会对个人医疗带来变革,特别是当可穿戴设备更成熟后,移动技术将可以连续、安全、私人地收集并分析你的数据,这可能包括你的工作、购物、睡觉、吃饭、锻炼和通讯,这些数字追踪将得到一幅只属于你的健康自画像。

  拥有了这幅专属于自己的数字自画像,有什么好处呢?假设你是一名患者,这样精确个体化的小数据也许可以帮助你回答:我每次服药应该用怎样的剂量?当然了,药物说明书上会有一个用药指导,但那个数值是基于大量病人海量数据统计分析得来的,但它适不适合此时此刻的你呢?于是,你就需要了解关于你自己的“小数据”。对于慢性病、抑郁症、记忆力衰退和克罗恩病,很需要日常活动变化的数据。大数据一般是从一个大N的种群里面取得的,而小数据n=me。我们需要数据解放,把移动和网络服务的数据解放到你我自己。

  这样一来,小数据也许可以为我们提供更多研究的可能性:能不能通过分析年老父母的集成数据,进而获得他们的健康信息?能不能通过这些集成数据,比较不同的医学治疗方案?譬如数据跟踪能说明你散步可以走多远,你多早离开家,那就可以表明关节炎药物治疗效果如何。

  更令人期待的是,小数据或许还将成为人类攻克癌症的一个好帮手。现在许多人认识到需要用患者的数据进行个性化的癌症治疗。我们要特征化所有患者。肿瘤细胞的DNA引起不同的癌症病人非常不同的变化。譬如,大致相同的基因变异或删除只占患者的10%。即使是同一个肿瘤,其细胞的变异也不同。基因之间的相互作用可能引起二次变异,对患者的治疗影响很大。所以,对许多患者用同一个治疗方法是不可能成功的。个性化或者说层次式的药物治疗是要按照特定患者的条件开出药方——不是“对症下药”,而是“对人下药”。这些个性化的治疗都需要记录和分析个人行为随时间变化的规律,这就是小数据。

  当然,这并不是说大数据就不重要。在医学上发现治疗的一般规律需要大数据。欧美各国都在计划编制患者信息的数据库,不但为了癌症治疗,也为开发新的治疗方法。集成大量在线数据库可以推动个性化用药,减轻他们的痛苦。从大数据得到规律,用小数据去匹配个人。

  大数据流行,大家就“言必称大数据”,可这并不是做学问的态度,不要碰到大量的数据,就给它戴上一顶帽子“大数据”。就像20年前,系统工程也很时髦。哪怕是做报告谈到一个比较大的工程,都说那是系统工程。可系统工程又怎么样呢?“那是很难的”,就没有下文了。我们应该敞开思想,研究实际问题,切忌空谈。

相关文章

急性缺血性卒中早期神经功能恶化有了防治方案

4月23日,《美国医学会杂志·神经病学》发表了首都医科大学宣武医院吉训明院士团队一项随机对照研究结果显示,急性缺血性卒中发病24小时内静脉应用替罗非班抗血小板治疗可以显著降低早期神经功能恶化,且不增加......

工信部:加速推进大数据、人工智能等研发应用

国新办于4月18日(星期四)上午10时举行新闻发布会,工业和信息化部新闻发言人、总工程师赵志国表示,下一步,工信部将围绕高质量发展这个首要任务,进一步巩固提升信息通信业竞争优势和领先地位。一是夯基础。......

司法部:经营者不得实施“价格歧视”“大数据杀熟”

财联社4月9日电,国务院新闻办公室举行国务院政策例行吹风会,介绍《中华人民共和国消费者权益保护法实施条例》有关情况。司法部立法二局负责人郭启文在会上表示,在立法过程中,司法部与市场监管总局紧密合作,聚......

湘雅三医院新疗法为子宫内膜癌患者提供新选择

4月3日,中南大学湘雅三医院妇科海扶中心在国内首次成功应用聚焦超声消融技术(FUAS)治疗一例复发转移性子宫内膜癌患者。这一创新性疗法成功实施为复发和转移性子宫内膜癌患者的治疗提供了新选择。薛敏教授术......

多部门联合开展全国数据资源调查

国家数据局19日发布消息,为摸清数据资源底数,加快数据资源开发利用,更好发挥数据要素价值,国家数据局、中央网信办等部门联合开展全国数据资源情况调查,调研各单位数据资源生产存储、流通交易、开发利用、安全......

Cell子刊:桂俊团队揭示肿瘤免疫治疗新靶点

肿瘤微环境(TME)与肿瘤发展密切相关,大量研究显示TME呈现高度免疫抑制状态,CD8+T细胞是介导抗肿瘤免疫应答的关键效应细胞,经抗原活化后,释放γ干扰素(IFNγ)、颗粒酶(Granzyme)和穿......

微生物所等在宿主体内形成持留菌机制及治疗方面获进展

=近日,中国科学院微生物研究所付钰和王琳淇研究团队在《细胞-宿主与微生物》(CellHost&Microbe)上,在线发表了题为Fungicide-tolerantpersisterforma......

微生物所在真菌脑膜炎耐药和治疗策略研发方面获进展

近日,中国科学院微生物研究所王琳淇研究团队在《自然-微生物学》(NatureMicrobiology)上,发表了题为BrainglucoseinducestoleranceofCryptococcus......

烟台新增7家省级数据开放创新应用实验室

近日,山东省大数据局印发《关于公布山东省数据开放创新应用实验室名单(第三批)的通知》(鲁数字〔2023〕59号),烟台智慧城市大数据研究院、陆海空间(烟台)信息技术有限公司等7家企事业单位获批。截至目......

2023年大数据产业发展示范名单公示

根据《工业和信息化部办公厅关于组织开展2023年大数据产业发展示范申报工作的通知》(工信厅信发函〔2023〕187号),经企业自主申报、地方推荐、专家评审等环节,形成了2023年大数据产业发展示范名单......