对于具有分布 且已知 总体均值 的单个 变量 ,总体方差 ,通常也写作 ,定义为
(1)
|
其中 是总体均值,而 表示 的 期望值。对于具有 个可能值 的 离散分布,总体方差因此为
(2)
|
而对于 连续分布,它由下式给出
(3)
|
因此,方差等于第二个 中心矩 。
请注意,在将 解释为方差时,需要谨慎,因为符号 也常被用作与方差的平方根相关但不等同的参数,例如在对数正态分布、麦克斯韦分布和瑞利分布中。
如果基础分布未知,则可以计算样本方差为
(4)
|
其中 是样本均值。
请注意,上面定义的样本方差 不是 总体方差 的无偏估计量。为了获得 的无偏估计量,有必要改为定义“偏差校正样本方差”
(5)
|
和 之间的区别是常见的混淆来源,在查阅文献以确定使用哪种约定,特别是当不明确的符号 通常用于两者时,应格外小心。数据列表的偏差校正样本方差 实现为方差[列表]。
方差的平方根称为标准差。
给出总体方差的有偏估计量的原因是,实际上是从数据本身估计了两个自由参数 和 。在这种情况下,使用 Student's t 分布 而不是 正态分布 作为模型是合适的,因为,非常笼统地说,Student's t 分布是在不知道 的情况下可以做到的“最佳”选择。
形式上,为了从先验未知 均值(即均值是从样本本身估计的)的 个元素的样本中估计总体方差 ,我们需要 的无偏估计量。这由 k 统计量 给出,其中
(6)
|
而 是未针对偏差校正的样本方差。
事实证明,量 具有 卡方分布。
对于数据集 ,通过线性变换获得的数据的方差由下式给出
(7)
| |||
(8)
| |||
(9)
| |||
(10)
| |||
(11)
| |||
(12)
|
对于多个变量,方差使用协方差的定义给出,
(13)
| |||
(14)
| |||
(15)
| |||
(16)
| |||
(17)
|
线性求和具有类似的形式
(18)
| |||
(19)
| |||
(20)
|
这些方程可以使用协方差矩阵表示。