主题
Search

列联表


列联表,有时也称为双向频率表,是一种表格机制,至少有两行和两列,在统计学中用于以频数计数的形式呈现分类数据。更准确地说,一个 r×c 列联表显示了两个变量的观测频率,这些观测频率被排列成 r 行和 c 列。列联表的行和列的交叉点称为单元格。

性别杯子蛋筒圣代三明治其他
男性5923002042480
女性4103351802055

例如,上面的列联表有两行五列(不包括标题行/列),显示了根据两个变量(即性别和最喜欢的冰淇淋食用方式 (Larson and Farber 2014))对 2200 名成年人进行随机抽样的结果。以列联表形式呈现数据的一个好处是,它可以更轻松地执行基本的概率计算,通过在表格中添加汇总行和列,这项工作变得更加容易。

性别杯子蛋筒圣代三明治其他总计
男性59230020424801200
女性41033518020551000
总计1002635384441352200

上表是通过添加汇总行和列获得的第一个表的扩展版本。这些汇总使得更容易计算几个不同的概率相关量。例如,被抽样的人喜欢用杯子吃冰淇淋的概率约为 1002/2200 approx 45.54%,即 45.54%,而随机参与者是女性的概率约为 1000/2200 approx 45.45%,即 45.45%。更重要的是,使用列联表可以更轻松地计算条件概率,例如,在已知该人为男性的情况下,某人喜欢冰淇淋三明治的概率为 24/1200=2%,即 2%,而在已知偏好冰淇淋三明治的情况下,某人为男性的条件概率为 24/44 approx 54.54%,约为 54.54%。

其他常见的统计分析可以在以列联表形式给出的数据上执行。例如,一个有用的已知值是列 c 和行 r 交汇处的单元格的所谓期望频率 E_(c,r),其公式为:

 E_(c,r)=((sum of row r)·(sum of columnc))/(sample size).
(1)

计算 E_(1,1) 表示在单元格 (1,1) 处期望的值——即,喜欢用杯子吃冰淇淋的男性人数的期望值——大约是:

 E_(1,1)=(1200·1002)/(2200) approx 546.54,
(2)

由此可以推断出,在给定的样本中,该特定人群的“多于预期”。另请注意,知道 E_(1,1) 会自动给出,例如 E_(2,1),而无需重复应用 ()

 E_(2,1)=(total people who prefer cups)-E_(1,1) approx 1002-546.54=455.46.
(3)

计算期望频率的主要好处之一是能够检验所检查的两个变量(在本例中为性别和最喜欢的冰淇淋食用方式)是否像之前假设的那样实际上是独立的。这是通过计算每个单元格 (c,r) 的期望频率 E=E_(c,r),将其与观测频率 O=O_(c,r) 进行比较,然后执行卡方检验来完成的。

与列联表相关的另一个常见检验是所谓的比例同质性检验,它是卡方检验的一种形式,用于确定当从不同人群中抽取样本时,几个比例是否相等 (Larson and Farber 2014)。值得注意的是,上述卡方检验的两个实例都需要对观测频率进行随机抽样,且每个观测频率的期望频率至少为 5。这些检验在统计学的各个分支中都起着重要作用。


另请参阅

分类变量, 卡方检验, 条件概率, 频率分布, 独立事件, 概率, 样本, 统计学, 变量

此条目由 Christopher Stover 贡献

使用 Wolfram|Alpha 探索

参考文献

Larson, R. 和 Farber, B. 基础统计学:世界的图景,第 6 版。印第安纳波利斯:培生高等教育出版社,2014 年。Triola, M. F. 基础统计学,第 11 版。波士顿:艾迪生-韦斯利出版社,2011 年。

引用为

Stover, Christopher. “列联表。” 来自 MathWorld——Wolfram Web 资源,由 Eric W. Weisstein 创建。 https://mathworld.net.cn/ContingencyTable.html

主题分类