发布时间:2021-01-05 14:23 原文链接: 让数据沉淀的人

做数据挖掘的人,会和医学期刊扯上什么关系?

今年4月,一项关于疫情变化与复工复产的研究登上了医学期刊《柳叶刀》子刊EClinicalMedicine。作者将不同年龄人群划为7类,刻画了他们在家庭、学校、工作场合等情景下的接触模式,并据此分析出新冠病毒如何传播,用数量方法给出了多种疫情期间复工复产的模型。

  领衔这项研究的作者之一,正是中科院虚拟经济与数据科学研究中心(下称中心)主任石勇。

石勇等人最先以武汉的城市模型为例,分析不同社交情景的接触模式后,他们发现早期新冠病毒的传播更多发生在家庭和公共场合,并据此推测2020年2月11日是当地传播风险最高的日子,这一推测与后续报告的病例数高峰(2月4日-14日)相吻合。

“我们在2月7日做出了首个疫情防控复工复产的模型,武汉。文章投稿后3天就被接收了”。石勇告诉《中国科学报》。

“数据模型是有生命力的,数据挖掘的结果是粗糙知识,进一步过滤叫智能知识,智能知识的发现比数据挖掘的结果更重要。”对石勇而言,大数据挖掘的意义在于让各方面的工作更好地推进。在他的团队,跨学科、跨行业的研究比比皆是。

而这些成果,恰恰源于多年的积累与沉淀。

迅速出成果的秘诀

采访中,石勇谈到,传统的传染病模型预测相对固定,将之与大数据结合、演算,就能发现病毒传播的端倪,并据此预测潜在风险。上述研究中,石勇所在的数据挖掘团队与来自上海和香港的传染病研究者合作,并在疫情早期就开始设想复工复产需要具备的条件。

完成武汉的城市模型后,团队又选取了北京,天津,杭州,苏州和深圳5个城市,根据各城经济发展的预期值进行实证分析,模拟出不同城市疫情防控强度与复工复产方案间的利弊关系。

结果显示,利用不同模型,决策者可根据当地防控工作和复工计划预测出相应疾病传播风险,得到城市长期经济发展的基本判断,为疫情防控与科学决策提供了有力支撑。

回看这项研究,石勇等人之所以能在疫情早期迅速发布相关研究模型,有赖于长期与合作伙伴保持的密切联络。

“我们可以把很多学科在短时间内集合到一起”,石勇坦言,这也是中心的使命——中心作为交叉学科单位,招生范围包括计算机、管理、数学、生物医学等专业——“只要把这些学生匹配起来,可以发挥很大的科研能动性。”

沉淀自己,也沉淀数据

石勇团队的研究生张林姿告诉《中国科学报》,由于疫情,在无法与国内合作者面对面交流的情况下,石勇每天会专门留出几小时用于交流工作、推动进展。

为了给疫情防控和复工复产提供科学决策支撑,疫情中的石勇仍然每天坚持工作数十个小时。“据说牛顿就是在瘟疫封闭期间发现了万有引力,所以不要焦虑,这是很好的沉淀自己的时间。”石勇对学生如是说。

那段日子里,石勇也在思考中心的过去和下一个十年。2004年正式成立以来,中心一直在为国家宏观经济发展提供决策依据。2010年,全国个人信用评分系统问世,该项工作由石勇团队与中国人民银行征信局和征信中心联合完成,这项涉及公民个人收入、年龄、职业、家庭人口等信息的系统,对中国人的日常商业银行经济活动产生了重大影响。

这些年来,石勇一直在强调异构数据、非结构化数据的概念。当下,让大量的、有噪声的随机数据沉淀下来,实现数据挖掘最优化,仍然是石勇的工作目标:“当针掉到海里,你要知道针可能掉到哪里去。”

最近,石勇正带领团队与中国金融期货交易所合作,对太字节级别体量的交易数据进行分析,预测金融期货的变化及可能产生的影响。“把期货交易的大数据放到太湖之光这样的超算里,去观察交易者的行为。”

“只有高质量的数据才能产生更好的结果。”石勇再次强调。

人与算法皆纯粹

作为首届成思危优秀科研成果奖得主,石勇表示,成思危先生生前影响了很多人,无论国内还是国外,中国科学院大学教育基金会的发展也要有全球视野,拓展出新的联系:“成先生的影响是全世界的,希望基金会支持更多学科、甚至是其他国家的学生,扩大我们国科大的国际影响。”

石勇自己的团队也在践行这一准则。在中科院中关村园区的办公室里,石勇团队每周都会举行一次讨论班,大家围桌而坐,讨论与数据挖掘有关的国际最前沿研究。

石勇团队成员李彪告诉《中国科学报》,讨论班的目的很简单:让大家一直跟着领域的前沿走。而因为讨论班的学术氛围太好,以至于已经毕业、甚至毕业多年的学生也愿意专门抽出时间赶回来参加。

这样的氛围与石勇本人的行事风格不无关联。在李彪等年轻后辈的眼中,石勇始终是一位简单、纯粹的学者。已过耳顺之年的他仍在不断学习,对新鲜事物保持关注,但他永远衣着朴素——深蓝色的夹克和登山鞋穿了多年,公文包磨破了却想不起来换。

“做科研不为搞多大名堂、创造多大利益。”李彪表示,这样的言传身教影响了每一位加入团队的后辈。石勇尊重每个人的想法,“但你必须踏踏实实地去做”,李彪说。

为了让学生更早地接触数据科学,石勇面向中国科学院大学的研究生开设了《多元统计分析与机器学习》这门课程,他会在课堂上介绍数据科学研究中用到的各种方法。

曾任课程助教的李彪还记得,这堂从不点名的课有40多人选修,但每次都有60多号人坐在教室,直到课程结束。“这学期上完,每个人都相当于完成了一个小规模的机器学习项目。”李彪说。

相关文章

智能网联数据应用创新联合体在津成立

3月31日,智能网联数据应用创新联合体成立大会暨首届智能网联数据要素生态创新会议在天津大学举行。联合体在现场发布了天津市智能网联数矿体系,公布了首批智能网联数据产品供需意向清单。随后,首批智能网联数据......

2024年全国数据工作会议在京召开健全数据基础制度数字化赋能高质量发展

4月1日至2日,2024年全国数据工作会议在北京召开,这是国家数据局正式挂牌后的首次全国数据工作会议。会议从着力健全基础制度、释放要素潜能、加快转型赋能、促进科技创新、完善基础设施、强化安全保障、推进......

全国政协委员宋树立:建议医院检查结果互认互通,四步走

聚焦两会,我们也十分关注建议提案。全国政协委员宋树立建议医院检查结果互认互通。宋树立表示医院检查结果是指对超声X光、核医学等等这些检查所形成的数据或者图像,以及像对血液等其他的一些样本,通过血液学、细......

财政部:进一步提高政府采购信息查询使用便利度

28日,财政部发布关于进一步提高政府采购信息查询使用便利度的通知。财办库〔2024〕30号各省、自治区、直辖市、计划单列市财政厅(局),新疆生产建设兵团财政局:为加强全国政府采购数据共享共用,进一步提......

《数据与情报科学学报(英文)》:致力加深社会对科研生态的理解

正如联合国教科文组织所说,科学是人类最伟大的集体事业。公众、科学家和政府都是科学事业的直接或间接参与者。他们对科学的理解和认知共同影响着科学能否有效地回应社会现实。例如,在流行病期间,保持社交距离等社......

第二批国家计量数据建设应用基地拟批准筹建

为加强计量数据建设和应用,充分挖掘释放计量数据效能,促进计量数据向现实生产力转化,按照《“十四五”市场监管现代化规划》(国发〔2021〕30号)、《计量发展规划(2021—2035年)》(国发〔202......

厚植新质生产力释放更强动力本市十大高精尖产业均破千亿级

北京高精尖产业结构更显“含金量”。记者日前从2024年全市经济和信息化工作会上获悉,去年,本市十大高精尖产业全部突破千亿级,新一代信息技术集群产值更是突破三万亿。今年将释放更强动力,规模以上工业增加值......

国家数据局:多措并举推进“数据要素×”行动落地

1月7日,国家数据局局长刘烈宏在出席主题为“增长动能中国探索”的第二十五届北大光华新年论坛时表示,将数据作为生产要素,是我国首次提出的重大理论创新。国家数据局正在推进的重点工作之一,就是充分发挥数据的......

资本赋能科技新质生产力加速释放

2023年,资本市场科技赛道“群星璀璨”,算力、AI大模型、数据要素、机器人等前沿科技领域频频取得重大突破,并在资本市场轮番掀起热潮。中央财经大学数字经济融合创新发展中心主任陈端表示:“这些科技热点其......

数据赋能:利用深度学习对短文本产品名称分类

一、研究背景在数字化浪潮的冲击下,基于产品质量安全监管的信息化基础,运用大数据、自然语言处理、机器学习等技术,让信息横向在不同区域间、纵向在各级市场监管部门流通,是一个有重要意义且需要我们在业务支撑工......