用于确定观测结果的统计显著性的检验。可能发生两种主要类型的错误
1. 当在零假设方面获得假阴性结果,即获得假阳性测量值时,会发生 I 型错误。
2. 当在零假设方面获得假阳性结果,即获得假阴性测量值时,会发生 II 型错误。
统计检验对于真统计量呈阳性的概率有时称为检验的灵敏度,而检验对于负统计量呈阴性的概率有时称为特异度。下表总结了在实际情况和观察到的检验结果的各种组合下给出的名称。
当同时进行多个统计检验时,会使用统计检验的多重比较校正。例如,假设您正在测量八种不同蜥蜴物种的腿长,并想查看任意一对的均值是否不同。现在,存在 成对比较 可能,因此即使所有总体均值都相等,也很可能至少有一对样本均值在 5% 水平上存在显著差异。因此,0.05 的 显著性水平 适用于每个单独的比较,但不适用于所有比较的集合。
为了避免大量虚假的阳性结果,因此需要降低 显著性水平,以考虑到执行的比较次数。这就是多重比较的校正。有很多不同的方法可以做到这一点。最简单也是最保守的方法是 邦弗朗尼校正。在实践中,更多人更愿意接受假阳性(错误地拒绝 零假设)而不是假阴性(错误地接受 零假设),因此通常使用不太保守的比较方法。