秩和检验的效能评估方法主要有以下几种:
一、模拟研究法
建立模型:
根据实际问题设定数据生成模型,包括总体分布类型(可以是各种不同的分布)、参数取值、样本量大小、处理效应等。例如,假设总体为偏态分布,设定均值、标准差等参数,确定两个比较组的差异程度。
生成数据:
使用计算机程序根据设定的模型生成大量的模拟数据集。例如,生成 1000 组或更多的样本数据,每组数据包含两个独立样本或多个样本,样本量可以根据实际研究情况设定。
进行秩和检验:
对每个模拟数据集进行秩和检验,记录检验结果,如是否拒绝原假设(即是否检测到差异)。例如,使用 Wilcoxon 秩和检验或 Kruskal-Wallis 检验,根据计算得到的统计量和对应的 P 值判断是否拒绝原假设。
评估效能:
根据多次模拟的结果,计算秩和检验在特定条件下的效能。效能通常定义为在给定的显著性水平下,正确拒绝原假设的比例。例如,如果在 1000 次模拟中,有 800 次正确拒绝了原假设,那么该秩和检验的效能就是 800/1000 = 0.8。
二、理论推导法
基于渐近分布:
对于一些常见的秩和检验方法,如 Wilcoxon 秩和检验和 Kruskal-Wallis 检验,在大样本情况下可以利用渐近分布理论来近似计算检验效能。例如,根据中心极限定理,当样本量足够大时,秩和检验统计量近似服从正态分布,可以通过推导得到在给定参数条件下的检验效能表达式。
利用已有公式:
对于某些特定的情况,可以利用已有的统计公式来估算秩和检验的效能。例如,在配对设计的 Wilcoxon 符号秩检验中,可以根据样本量、差值的分布特征等参数,利用相关的效能计算公式进行估算。
三、实际数据验证法
回顾性研究:
利用已有的实际数据集进行分析,这些数据集应具有已知的差异或处理效应。例如,在医学研究中,可以使用已有的临床数据,其中不同治疗组的疗效差异是已知的或者经过长期观察确定的。
分割样本法:
将一个较大的实际数据集随机分成两部分,一部分作为训练集,另一部分作为测试集。在训练集上进行秩和检验,确定检验方法和参数,然后在测试集上验证检验的效能。例如,将一组患者的医疗数据随机分成两部分,先在一部分数据上确定合适的秩和检验方法和显著性水平,然后用另一部分数据来评估该方法的效能。
比较不同方法:
将秩和检验与其他已知效能的方法进行比较,通过实际数据的分析来评估秩和检验的相对效能。例如,将秩和检验与参数检验方法(如 t 检验或方差分析)在同一组实际数据上进行比较,观察在不同条件下两种方法的表现,从而评估秩和检验的效能。