秩和检验效能评估方法的检验效能评估常用指标主要有以下几个:


一、功效(Power)


  1. 定义:功效指当备择假设为真时,正确拒绝原假设的概率。即能够检测到实际存在差异的能力。

  2. 意义:功效值越高,说明检验方法在实际有差异的情况下正确判断出差异的能力越强。例如,一个功效为 0.8 的检验意味着在重复进行 100 次实验中,有 80 次能够正确地检测出实际存在的差异。

  3. 取值范围:功效值在 0 到 1 之间。通常认为功效值至少应达到 0.8,才能保证检验有足够的能力检测到实际差异。


二、样本量(Sample Size)


  1. 定义:参与检验的样本数量。对于秩和检验,样本量的大小会直接影响检验效能。

  2. 意义:一般来说,样本量越大,检验效能越高。因为大样本量可以更好地反映总体的特征,减少抽样误差,从而更容易检测到实际存在的差异。例如,在比较两种药物疗效的研究中,较大的样本量可以提供更准确的结果。

  3. 确定方法:可以通过功效分析、公式计算或统计软件来确定所需的样本量。在进行功效分析时,需要考虑效应大小、显著性水平、检验类型等因素。


三、效应量(Effect Size)


  1. 定义:反映两组或多组数据之间差异的大小。在秩和检验中,常用的效应量指标有中位数之差、Wilcoxon 秩和统计量等。

  2. 意义:效应量越大,说明实际差异越大,检验效能也就越高。通过计算效应量,可以评估不同处理或因素对结果的影响程度。例如,在比较两种治疗方法对患者症状的改善程度时,较大的中位数之差意味着两种方法的效果差异较大,更容易被检测出来。

  3. 确定方法:可以根据实际数据进行计算,也可以参考以往的研究或专业知识来估计效应量的大小。在进行功效分析时,需要提供效应量的估计值,以便确定所需的样本量。


四、显著性水平(Significance Level)


  1. 定义:也称为 α 水平,是在假设检验中预先设定的拒绝原假设的概率阈值。通常取 0.05 或 0.01 等。

  2. 意义:显著性水平越低,拒绝原假设的标准就越严格。降低显著性水平会降低犯第一类错误(错误地拒绝原假设)的概率,但同时也可能降低检验效能。例如,当显著性水平从 0.05 降低到 0.01 时,需要更强的证据才能拒绝原假设,这可能导致在一些情况下原本能够检测到的差异现在无法被检测到。

  3. 确定方法:根据研究的具体要求和实际情况来确定显著性水平。一般来说,对于重要的研究或需要严格控制错误的情况,可以选择较低的显著性水平。