发布时间:2022-05-25 09:10 原文链接: 不符合预期的数据,也是客观结果

科学是以数据说话的,任何科学结论都需要数据支持。数据不严谨,会产生不严谨的结论,甚至是错误荒唐的结论。这对社会的影响是极大的,尤其是涉及国计民生问题时,错误的数据很可能会导致错误的决策,进而造成巨大的损失。所以,实验科学无论怎样强调数据都不为过。

最近,我和学生们在组会上又聊到了数据取舍的问题。我的研究生刚刚获得了一个实验的部分数据,需要统计处理组与对照组的差异,但统计后他发现,有一组数据标准差太大,统计结果是“差异不显著”。

我们的实验研究需要检验处理组和对照组之间的差异,或不同因素处理的效应,在这一过程中,令研究人员最头疼的问题就是实验结果与预期不一致,本该有差异显著性的数据,却检测不到差异显著性,概率值大于0.05。在我们平时的科研工作中,这种情况很常见。

在讨论的时候,我跟他说:“如果个别数据偏离了整个样本的变化趋势,要特别重视,首先分析自己的实验过程是否有问题、样品是否有问题等。不符合预期的数据是绝对不能随便删除的,可以在分析数据的散点图和标准差后,决定是重复一次实验,还是增加样本数。”

数据取舍,是我们组会上经常讨论的问题。我一般会跟我的学生说,出现个别偏离的数据,要认真分析是不是这个样本有问题,并结合这个样本的其他参数予以考虑。比方说,如果同一个动物实验中,多个参数都出现了问题,就要考虑可能是动物样本的问题;如果仅是某个参数不符合预期,可以分析测定过程是否出了问题。但基本原则是,不能随便删除数据。

面对个别偏离的数据时,我们的处理方法一般有以下三种。第一,再重复测定一次;第二,如果问题依然存在,又不好解释,按照数据散点图,将偏离平均值范围太大的数据在散点图上标记出来,统计分析时,说明这个数据没有被统计进来;第三,根据统计学中判断奇异值的方法,进行个别数据取舍。

有时我们会发现,统计结果是由个别数据引起的,如果去掉偏离平均值范围大的数据,差异显著性就出来了。这时,有些研究人员就会产生一种取舍数据的冲动,想删除这个不理想数据。但这是很危险的,因为随便取舍数据,或根据自己的需要取舍数据、选择性使用数据,就触碰到了学术不端的红线。

我认为,研究人员产生数据不当取舍行为的一个直接原因是功利化心态、浮躁心态。例如,研究生有毕业发表论文的需要,年轻学者有晋升和申请各种名誉奖项的需要等。如果没有正确对待科学的心态,没有对待科学数据严谨的态度,而是论文至上,再加上没有强有力的监督机制和惩罚措施,出问题是不奇怪的。

为避免不当的数据取舍,应该对实验的原始记录给予高度重视。我们实验室每周都有组会,大家有数据就会在组会上讨论。研究生和导师交流时,也要提供原始数据。

在我以前工作的中国科学院动物研究所,我负责研究生教育工作多年,研究所学位委员会制定了导师检查研究生实验记录的制度,每学期都要进行检查,记录本上有导师的签字。导师检查学生实验记录,也是研究生中期考核、申请学位论文答辩的一个重要条件。研究所为此专门定做了实验记录本,每页都有页码,不能随便撕掉。实施效果还是不错的。

相关文章

中国新能源汽车大数据产业大会召开

3月19日,“中国新能源汽车大数据2023年产业大会”在沈阳市举办。大会由沈阳市人民政府和新能源汽车国家大数据联盟(以下简称“联盟”)共同主办。辽宁省副省长姜有为、工信部装备工业一司副司长郭守刚等共同......

中国首次获得遥感数据融合大赛举办权

近日,中国科学院空天信息创新研究院牵头,联合中科星图股份有限公司、中科星图数字地球合肥有限公司与德国慕尼黑联邦国防军大学共同申请,成功获得遥感数据融合大赛(DataFusionContest,DFC)......

如何理解数据是新型生产要素

数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各个环节,深刻改变着生产方式、生活方式和社会治理方式。我国具有数据规模和数据应用优势,积极探索推进......

“数据跟着算力跑”到“算力围着数据转”的嬗变

“摩尔定律被打破后,什么将推动超级计算机性能的发展?”12月13日,在今年的CCFHPCChina2022上,2021年度图灵奖获得者、来自美国田纳西大学和橡树岭国家实验室的杰克·唐加拉教授在演讲的最......

卫生健康信息基本数据编制标准出台,一项面临废止

现发布《集卫生健康信息基本数据编制标准》等2项推荐性卫生行业标准,编号和名称如下:WS/T370—2022卫生健康信息基本数据集编制标准(代替WS370—2012)WS/T811—2022血站信息系统......

“数据驱动的新地学”科学与技术前沿论坛在京举行

10月29至30日,中国科学院学部“数据驱动的新地学”跨学部科学与技术前沿论坛”暨ScienceBulletin第二届地球科学前沿学术沙龙在中国科学院学术会堂举行。此次论坛围绕“数据驱动的新地学”这一......

国家统计局又一数据,这个行业还不稳定

国家统计局服务业调查中心、中国物流与采购联合会10月31日发布数据,10月份,中国制造业采购经理指数(PMI)为49.2%,在调查的21个行业中,有11个位于扩张区间,制造业景气面总体稳定。国家统计局......

我国发布更新第二款全球海洋Argo网格数据集

近日,由上海海洋大学和自然资源部杭州全球海洋Argo系统野外科学观测研究站联合研制的全球海洋Argo网格数据集(简称GDCSM_Argo)在国际Argo官方网站正式发布,这是我国在国际上公开发布并定期......

研究显示:全球50岁以下人群癌症发病率上升

近几十年来,越来越多的50岁以下成年人患上癌症。美国科学家进行的一项研究显示,早发型癌症(50岁之前被诊断出的癌症,包括乳腺癌、结肠癌、食道癌、肾癌、肝癌和胰腺癌等)的发病率,从1990年开始在世界范......

打造面向开放科学的“数据共享”新未来

“对于全球科技期刊来讲,开放科学带来了学术交流模式的变革,从原来传统的学术交流模式,转向新型的学术交流模式。”8月25日,中国科学院文献情报中心副主任、研究馆员张智雄在第十七届中国科技期刊发展论坛“开......