发布时间:2022-05-25 16:46 原文链接: 数据可以随便取舍吗?

科学是以数据说话的,任何科学结论都需要科学数据支持。数据的不严谨,会产生不严谨的结论,甚至是错误荒唐的结论,这对社会的影响是极大的,尤其是涉及国计民生的问题时,错误的数据很可能会导致错误的决策,进而造成巨大的损失。所以,实验科学无论怎样强调数据都不为过。

最近,我和学生们在组会上又聊到了数据取舍的问题。我的研究生刚刚获得了一个实验的部分数据,需要统计处理组与对照组的差异,但统计后他发现,有一组数据标准差太大,统计结果是“差异不显著”。

我们的实验研究需要检验处理组和对照组之间的差异,或不同因素处理的效应,在这一过程中,令研究人员最头疼的问题就是实验结果与预期不一致,本该有差异显著性的数据,却检测不到差异显著性,概率值大于0.05。在我们平时的科研工作中,这种情况很常见。

在讨论的时候,我跟他说:“如果个别数据偏离了整个样本的变化趋势,要特别重视,首先分析自己的实验过程是否有问题,样品是否有问题等。不符合预期的数据是绝对不能随便删除的,可以分析数据的散点图和标准差,决定是再重复一次实验,还是增加样本数。”

数据取舍,是我们组会上经常讨论的问题。我一般会跟我的研究生们说,出现个别偏离的数据,要认真分析是不是这个样本有问题,结合这个样本的其他参数考虑。比方说,如果同一个动物实验中,多个参数都出现了问题,就要考虑可能是动物样本的问题;如果仅是某个参数不符合预期,可以分析测定过程是否出了问题。但基本原则是:不能随便删除数据!

面临个别偏离的数据时,我们的处理方法一般有以下三种:1)再重复测定一次;2)如果问题依然存在,又不好解释,按照数据散点图,对于偏离平均值范围太大的数据,在散点图上标记出来,统计分析的时候,说明这个数据没有被统计进来;3)根据统计学中判断奇异值的方法,进行个别数据取舍。

有的时候我们会发现,统计结果是由于个别数据引起来的,如果去掉偏离平均值范围大的数据,差异显著性就出来了。在这种时候,有些研究人员就会产生一种取舍数据的冲动,想删除这个不理想数据。但是,这是一种很危险的冲动,因为随便取舍数据,或根据自己的需要取舍数据、选择性使用数据的做法,触碰到了学术不端的红线!

我认为,研究人员发生数据不当取舍行为的一个直接原因就是功利化心态、浮躁心态,例如,研究生面临毕业发表论文的需要,年轻学者面临晋升和申请各种名誉奖项的需要等。如果没有正确对待科学的心态,没有对待科学数据严谨的态度,以论文至上,受利益驱动,再加上没有强有力的监督机制和惩罚措施,出问题是不奇怪的。

为了避免不当的数据取舍,我们对实验的原始记录是高度重视的。我们实验室每周都会有组会,大家有数据就会在组会上讨论。研究生和导师交流时,也要提供原始数据。

在我以前工作的中国科学院动物研究所,我负责研究生教育工作多年,研究所学位委员会专门制定了导师检查研究生实验记录的制度,每学期都要进行检查,记录本上都有导师签字。导师检查学生实验记录,也是研究生中期考核、申请学位论文答辩的一个重要条件。同时,研究所专门订做了实验记录本,每页都有页码,不能随便撕掉。实施效果还是不错的。

总之,做实验要尊重原始数据,严肃认真,认真对待每一个数据,认真对待科研和实验过程的每一个步骤,认真做好实验记录。不可以随便删除数据,不可以更改数据,不可以选择性地取舍实验数据!

相关文章

卫生健康信息基本数据编制标准出台,一项面临废止

现发布《集卫生健康信息基本数据编制标准》等2项推荐性卫生行业标准,编号和名称如下:WS/T370—2022卫生健康信息基本数据集编制标准(代替WS370—2012)WS/T811—2022血站信息系统......

“数据驱动的新地学”科学与技术前沿论坛在京举行

10月29至30日,中国科学院学部“数据驱动的新地学”跨学部科学与技术前沿论坛”暨ScienceBulletin第二届地球科学前沿学术沙龙在中国科学院学术会堂举行。此次论坛围绕“数据驱动的新地学”这一......

国家统计局又一数据,这个行业还不稳定

国家统计局服务业调查中心、中国物流与采购联合会10月31日发布数据,10月份,中国制造业采购经理指数(PMI)为49.2%,在调查的21个行业中,有11个位于扩张区间,制造业景气面总体稳定。国家统计局......

我国发布更新第二款全球海洋Argo网格数据集

近日,由上海海洋大学和自然资源部杭州全球海洋Argo系统野外科学观测研究站联合研制的全球海洋Argo网格数据集(简称GDCSM_Argo)在国际Argo官方网站正式发布,这是我国在国际上公开发布并定期......

研究显示:全球50岁以下人群癌症发病率上升

近几十年来,越来越多的50岁以下成年人患上癌症。美国科学家进行的一项研究显示,早发型癌症(50岁之前被诊断出的癌症,包括乳腺癌、结肠癌、食道癌、肾癌、肝癌和胰腺癌等)的发病率,从1990年开始在世界范......

打造面向开放科学的“数据共享”新未来

“对于全球科技期刊来讲,开放科学带来了学术交流模式的变革,从原来传统的学术交流模式,转向新型的学术交流模式。”8月25日,中国科学院文献情报中心副主任、研究馆员张智雄在第十七届中国科技期刊发展论坛“开......

国家能源局:我国用电增速回升,用电负荷屡创新高!

时至年中,大江南北一片繁忙景象:工厂车间热火朝天,田间地头抢抓农时,复商复市稳步推进……国家能源局数据显示,上半年我国全社会用电量4.1万亿千瓦时,同比增长2.9%。6月份全社会用电量同比增长4.7%......

让生猪体重信息影像数据采集技术有据可依

生猪是我国养殖业的主要畜种。猪长得好不好,关键因素之一在于既要看它吃得好不好,还要看它吃得省不省,也就是精准营养。现行我国饲料配方制定尚未全盘考虑品种、性别、饲养模式、养殖环境、生长阶段、日粮类型、母......

数据高速路有了“匝道”和“桥梁”

澳大利亚科学家领导的一个国际团队研制出首款自校准光子芯片,其能“变身”数据高速公路上的桥梁,改变当前光学芯片之间的连接状况,提升数据传输的速度,有望促进人工智能和自动驾驶汽车等领域的发展。最新研究发表......

闫冬梅|搭建共享桥梁的地球大数据管家

闫冬梅中科院空天信息创新研究院供图科学大数据,是当今时代的战略性资源,是科技创新发展的重要基础。2018年,中国科学院正式启动“地球大数据科学工程”先导专项,为“一带一路”“数字中国”、人类命运共同体......