让数据沉淀的人

发布时间：2021-01-05 14:23 原文链接：让数据沉淀的人

做数据挖掘的人，会和医学期刊扯上什么关系？

今年4月，一项关于疫情变化与复工复产的研究登上了医学期刊《柳叶刀》子刊EClinicalMedicine。作者将不同年龄人群划为7类，刻画了他们在家庭、学校、工作场合等情景下的接触模式，并据此分析出新冠病毒如何传播，用数量方法给出了多种疫情期间复工复产的模型。

领衔这项研究的作者之一，正是中科院虚拟经济与数据科学研究中心（下称中心）主任石勇。

石勇等人最先以武汉的城市模型为例，分析不同社交情景的接触模式后，他们发现早期新冠病毒的传播更多发生在家庭和公共场合，并据此推测2020年2月11日是当地传播风险最高的日子，这一推测与后续报告的病例数高峰（2月4日-14日）相吻合。

“我们在2月7日做出了首个疫情防控复工复产的模型，武汉。文章投稿后3天就被接收了”。石勇告诉《中国科学报》。

“数据模型是有生命力的，数据挖掘的结果是粗糙知识，进一步过滤叫智能知识，智能知识的发现比数据挖掘的结果更重要。”对石勇而言，大数据挖掘的意义在于让各方面的工作更好地推进。在他的团队，跨学科、跨行业的研究比比皆是。

而这些成果，恰恰源于多年的积累与沉淀。

迅速出成果的秘诀

采访中，石勇谈到，传统的传染病模型预测相对固定，将之与大数据结合、演算，就能发现病毒传播的端倪，并据此预测潜在风险。上述研究中，石勇所在的数据挖掘团队与来自上海和香港的传染病研究者合作，并在疫情早期就开始设想复工复产需要具备的条件。

完成武汉的城市模型后，团队又选取了北京，天津，杭州，苏州和深圳5个城市，根据各城经济发展的预期值进行实证分析，模拟出不同城市疫情防控强度与复工复产方案间的利弊关系。

结果显示，利用不同模型，决策者可根据当地防控工作和复工计划预测出相应疾病传播风险，得到城市长期经济发展的基本判断，为疫情防控与科学决策提供了有力支撑。

回看这项研究，石勇等人之所以能在疫情早期迅速发布相关研究模型，有赖于长期与合作伙伴保持的密切联络。

“我们可以把很多学科在短时间内集合到一起”，石勇坦言，这也是中心的使命——中心作为交叉学科单位，招生范围包括计算机、管理、数学、生物医学等专业——“只要把这些学生匹配起来，可以发挥很大的科研能动性。”

沉淀自己，也沉淀数据

石勇团队的研究生张林姿告诉《中国科学报》，由于疫情，在无法与国内合作者面对面交流的情况下，石勇每天会专门留出几小时用于交流工作、推动进展。

为了给疫情防控和复工复产提供科学决策支撑，疫情中的石勇仍然每天坚持工作数十个小时。“据说牛顿就是在瘟疫封闭期间发现了万有引力，所以不要焦虑，这是很好的沉淀自己的时间。”石勇对学生如是说。

那段日子里，石勇也在思考中心的过去和下一个十年。2004年正式成立以来，中心一直在为国家宏观经济发展提供决策依据。2010年，全国个人信用评分系统问世，该项工作由石勇团队与中国人民银行征信局和征信中心联合完成，这项涉及公民个人收入、年龄、职业、家庭人口等信息的系统，对中国人的日常商业银行经济活动产生了重大影响。

这些年来，石勇一直在强调异构数据、非结构化数据的概念。当下，让大量的、有噪声的随机数据沉淀下来，实现数据挖掘最优化，仍然是石勇的工作目标：“当针掉到海里，你要知道针可能掉到哪里去。”

最近，石勇正带领团队与中国金融期货交易所合作，对太字节级别体量的交易数据进行分析，预测金融期货的变化及可能产生的影响。“把期货交易的大数据放到太湖之光这样的超算里，去观察交易者的行为。”

“只有高质量的数据才能产生更好的结果。”石勇再次强调。

人与算法皆纯粹

作为首届成思危优秀科研成果奖得主，石勇表示，成思危先生生前影响了很多人，无论国内还是国外，中国科学院大学教育基金会的发展也要有全球视野，拓展出新的联系：“成先生的影响是全世界的，希望基金会支持更多学科、甚至是其他国家的学生，扩大我们国科大的国际影响。”

石勇自己的团队也在践行这一准则。在中科院中关村园区的办公室里，石勇团队每周都会举行一次讨论班，大家围桌而坐，讨论与数据挖掘有关的国际最前沿研究。

石勇团队成员李彪告诉《中国科学报》，讨论班的目的很简单：让大家一直跟着领域的前沿走。而因为讨论班的学术氛围太好，以至于已经毕业、甚至毕业多年的学生也愿意专门抽出时间赶回来参加。

这样的氛围与石勇本人的行事风格不无关联。在李彪等年轻后辈的眼中，石勇始终是一位简单、纯粹的学者。已过耳顺之年的他仍在不断学习，对新鲜事物保持关注，但他永远衣着朴素——深蓝色的夹克和登山鞋穿了多年，公文包磨破了却想不起来换。

“做科研不为搞多大名堂、创造多大利益。”李彪表示，这样的言传身教影响了每一位加入团队的后辈。石勇尊重每个人的想法，“但你必须踏踏实实地去做”，李彪说。

为了让学生更早地接触数据科学，石勇面向中国科学院大学的研究生开设了《多元统计分析与机器学习》这门课程，他会在课堂上介绍数据科学研究中用到的各种方法。

曾任课程助教的李彪还记得，这堂从不点名的课有40多人选修，但每次都有60多号人坐在教室，直到课程结束。“这学期上完，每个人都相当于完成了一个小规模的机器学习项目。”李彪说。

其他网友还关注过

实验室

工业大数据系统与应用北京市重点实验室新疆中亚造山带大陆动力学与成矿预测实验室农业部特种经济动植物及产品质量监督检验测试中心东北大学医学影像计算教育部重点实验室云南大学现代分析测试中心稳定同位素地球化学实验室中国科学院近地空间环境重点实验室广州工业微生物检测中心诺思技术分析（深圳）有限公司西北有色地质研究院测试中心

让数据沉淀的人

其他网友还关注过

智能网联数据应用创新联合体在津成立

2024年全国数据工作会议在京召开健全数据基础制度数字化赋能高质量发展

全国政协委员宋树立：建议医院检查结果互认互通，四步走

财政部：进一步提高政府采购信息查询使用便利度

《数据与情报科学学报（英文）》：致力加深社会对科研生态的理解

第二批国家计量数据建设应用基地拟批准筹建

厚植新质生产力释放更强动力本市十大高精尖产业均破千亿级

国家数据局：多措并举推进“数据要素×”行动落地

资本赋能科技新质生产力加速释放

数据赋能：利用深度学习对短文本产品名称分类