列联表,有时也称为双向频率表,是一种表格机制,至少有两行和两列,在统计学中用于以频数计数的形式呈现分类数据。更准确地说,一个 列联表显示了两个变量的观测频率,这些观测频率被排列成
行和
列。列联表的行和列的交叉点称为单元格。
性别 | 杯子 | 蛋筒 | 圣代 | 三明治 | 其他 |
男性 | 592 | 300 | 204 | 24 | 80 |
女性 | 410 | 335 | 180 | 20 | 55 |
例如,上面的列联表有两行五列(不包括标题行/列),显示了根据两个变量(即性别和最喜欢的冰淇淋食用方式 (Larson and Farber 2014))对 名成年人进行随机抽样的结果。以列联表形式呈现数据的一个好处是,它可以更轻松地执行基本的概率计算,通过在表格中添加汇总行和列,这项工作变得更加容易。
性别 | 杯子 | 蛋筒 | 圣代 | 三明治 | 其他 | 总计 |
男性 | 592 | 300 | 204 | 24 | 80 | 1200 |
女性 | 410 | 335 | 180 | 20 | 55 | 1000 |
总计 | 1002 | 635 | 384 | 44 | 135 | 2200 |
上表是通过添加汇总行和列获得的第一个表的扩展版本。这些汇总使得更容易计算几个不同的概率相关量。例如,被抽样的人喜欢用杯子吃冰淇淋的概率约为 ,即 45.54%,而随机参与者是女性的概率约为
,即 45.45%。更重要的是,使用列联表可以更轻松地计算条件概率,例如,在已知该人为男性的情况下,某人喜欢冰淇淋三明治的概率为
,即 2%,而在已知偏好冰淇淋三明治的情况下,某人为男性的条件概率为
,约为 54.54%。
其他常见的统计分析可以在以列联表形式给出的数据上执行。例如,一个有用的已知值是列 和行
交汇处的单元格的所谓期望频率
,其公式为:
(1)
|
计算 表示在单元格
处期望的值——即,喜欢用杯子吃冰淇淋的男性人数的期望值——大约是:
(2)
|
由此可以推断出,在给定的样本中,该特定人群的“多于预期”。另请注意,知道 会自动给出,例如
,而无需重复应用 ()
(3)
|
计算期望频率的主要好处之一是能够检验所检查的两个变量(在本例中为性别和最喜欢的冰淇淋食用方式)是否像之前假设的那样实际上是独立的。这是通过计算每个单元格 的期望频率
,将其与观测频率
进行比较,然后执行卡方检验来完成的。
与列联表相关的另一个常见检验是所谓的比例同质性检验,它是卡方检验的一种形式,用于确定当从不同人群中抽取样本时,几个比例是否相等 (Larson and Farber 2014)。值得注意的是,上述卡方检验的两个实例都需要对观测频率进行随机抽样,且每个观测频率的期望频率至少为 5。这些检验在统计学的各个分支中都起着重要作用。