费希尔精确检验是一种统计检验,用于确定两个分类变量之间是否存在非随机关联。
假设存在两个这样的变量 和 ,分别具有 和 个观测状态。现在形成一个 矩阵,其中条目 表示 和 的观测次数。计算行和列总和 和 ,以及总和
(1)
|
矩阵的总和。然后计算在给定特定行和列总和的情况下,获得实际矩阵的条件概率,由下式给出
(2)
|
这是一个超几何概率函数的多变量推广。现在找到所有可能的矩阵,其元素为与行和列总和 和 一致的非负整数。对于每一个矩阵,使用 (2) 计算相关的条件概率,其中这些概率的总和必须为 1。
为了计算检验的 P 值,表格必须首先按照某种衡量依赖性的标准进行排序,然后将那些表示与观察到的表格相比,具有相等或更大程度偏离独立性的表格的概率相加。有多种标准可以用来衡量依赖性。在 的情况下,这是费希尔在开发精确检验时所关注的情况,通常使用 Pearson 卡方检验或比例差异(两者是等价的)。其他关联性度量,例如似然比检验、 平方,或通常用于列联表关联性的任何其他度量也可以使用。
该检验最常应用于 矩阵,并且对于较大的 或 来说,计算上很笨拙。对于大于 的表格,比例差异不再适用,但上面提到的其他度量仍然适用(并且在实践中,Pearson 统计量最常用于对表格进行排序)。在 矩阵的情况下,检验的 P 值可以通过对所有 值求和来简单计算,这些 P 值 。
对于 检验的示例应用,假设 是一本期刊,例如《数学杂志》或《科学》,Y 是在其中一本期刊的给定期号中,关于数学和生物学主题的文章数量。如果《数学杂志》有五篇关于数学的文章和一篇关于生物学的文章,《科学》没有关于数学的文章,有四篇关于生物学的文章,那么相关的矩阵将是
(3)
|
计算 得到
(4)
|
以及其他可能的矩阵及其 P 值是
(5)
| |||
(6)
| |||
(7)
| |||
(8)
|
正如要求的那样,它们确实加起来为 1。小于或等于 的 P 值之和为 0.0476,因为它小于 0.05,所以是显著的。因此,在这种情况下,期刊和出现的文章类型之间存在统计学上的显著关联。