主题
Search

正态分布


NormalDistribution

变量 X 中,具有均值 mu方差 sigma^2 的正态分布是一种统计分布,其概率密度函数

 P(x)=1/(sigmasqrt(2pi))e^(-(x-mu)^2/(2sigma^2))
(1)

定义域为 x in (-infty,infty)。虽然统计学家和数学家统一使用术语“正态分布”来指代这种分布,但物理学家有时称其为高斯分布,并且由于其弯曲的喇叭形,社会科学家将其称为“钟形曲线”。Feller (1968) 使用符号 phi(x) 表示上述方程中的 P(x),但随后在 Feller (1971) 中切换为 n(x)

棣莫弗开发了正态分布作为二项分布的近似,随后拉普拉斯在 1783 年将其用于研究测量误差,高斯在 1809 年将其用于天文数据分析(Havil 2003,第 157 页)。

正态分布在 Wolfram 语言中实现为NormalDistribution[mu, sigma]。

所谓的“标准正态分布”是通过在一般正态分布中取 mu=0sigma^2=1 给出的。任意正态分布可以通过将变量更改为 Z=(X-mu)/sigma 转换为标准正态分布,因此 dz=dx/sigma,得到

 P(x)dx=1/(sqrt(2pi))e^(-z^2/2)dz.
(2)

费希尔-贝伦斯问题是确定检验两个具有不同方差的正态分布的均值是否相等的检验。

正态分布函数 Phi(z) 给出了标准正态变量在区间 [0,z] 取值的概率,

Phi(z)=1/(sqrt(2pi))int_0^ze^(-x^2/2)dx
(3)
=1/2erf(z/(sqrt(2))),
(4)

其中 erf 是有时称为误差函数的函数。Phi(z)erf 都不能用有限的加法、减法、乘法和开方来表示,因此都必须进行数值计算或以其他方式近似。

NormalDistributionLimitOfBinomialDistribution

正态分布是离散二项分布 P_p(n|N)样本量 N 变得很大时的极限情况,在这种情况下,P_p(n|N) 是正态分布,均值方差

mu=Np
(5)
sigma^2=Npq,
(6)

其中 q=1-p

分布 P(x) 是正确归一化的,因为

 int_(-infty)^inftyP(x)dx=1.
(7)

累积分布函数,它给出了变量将取值 <=x 的概率,是正态分布的积分,

D(x)=int_(-infty)^xP(x^')dx^'
(8)
=1/(sigmasqrt(2pi))int_(-infty)^xe^(-(x^'-mu)^2/(2sigma^2))dx^'
(9)
=1/2[1+erf((x-mu)/(sigmasqrt(2)))],
(10)

其中 erf 是所谓的误差函数。

正态分布具有许多方便的特性,因此具有未知分布的随机变量通常被假定为正态分布,尤其是在物理学和天文学中。尽管这可能是一个危险的假设,但由于一个称为中心极限定理的惊人结果,它通常是一个很好的近似。该定理指出,任何具有有限均值方差的分布的变量集合的均值都趋向于正态分布。许多常见的属性,如考试成绩、身高等等,都大致遵循正态分布,两端成员很少,中间成员很多。

由于正态分布如此频繁地出现,因此不幸的是,人们倾向于在可能不适用的情况下调用正态分布。正如李普曼所说,“每个人都相信误差的指数定律:实验者,因为他们认为可以用数学证明它;数学家,因为他们相信它已经通过观察建立”(Whittaker 和 Robinson 1967,第 179 页)。

正态分布的惊人特性包括,分别通过对来自两个具有任意均值和方差的独立正态分布的变量 XY 进行加法和减法获得的正态和分布正态差分布也是正态分布!从 X/Y 获得的正态比分布具有柯西分布

使用k 统计量形式,正态分布方差无偏估计量由下式给出

 sigma^2=N/(N-1)s^2,
(11)

其中

 s^2=1/Nsum_(i=1)^N(x_i-x^_)^2,
(12)

所以

 var(x^_)=(s^2)/(N-1).
(13)

正态分布的特征函数

 phi(t)=e^(imt-sigma^2t^2/2),
(14)

并且矩生成函数

M(t)=<e^(tx)>
(15)
=int_(-infty)^infty(e^(tx))/(sigmasqrt(2pi))e^(-(x-mu)^2/(2sigma^2))dx
(16)
=e^(mut+sigma^2t^2/2),
(17)

所以

M^'(t)=(mu+sigma^2t)e^(mut+sigma^2t^2/2)
(18)
M^('')(t)=sigma^2e^(mut+sigma^2t^2/2)+e^(mut+sigma^2t^2/2)(mu+tsigma^2)^2,
(19)

mu=M^'(0)=mu
(20)
sigma^2=M^('')(0)-[M^'(0)]^2=sigma^2.
(21)

这些也可以使用

R(t)=ln[M(t)]=mut+1/2sigma^2t^2
(22)
R^'(t)=mu+sigma^2t
(23)
R^('')(t)=sigma^2,
(24)

计算,和之前一样,得到

mu=R^'(0)=mu
(25)
sigma^2=R^('')(0)=sigma^2.
(26)

原始矩也可以通过直接计算原始矩 mu_n^'=<x^n> 来计算,

 mu_n^'=1/(sigmasqrt(2pi))int_(-infty)^inftyx^ne^(-(x-mu)^2/(2sigma^2))dx.
(27)

(Papoulis 1984,第 147-148 页)。现在令

u=(x-mu)/(sqrt(2)sigma)
(28)
du=(dx)/(sqrt(2)sigma)
(29)
x=sigmausqrt(2)+mu,
(30)

给出以高斯积分表示的原始矩,

 mu_n^'=1/(sqrt(pi))int_(-infty)^inftyx^ne^(-u^2)du.
(31)

评估这些积分得到

mu_0^'=1
(32)
mu_1^'=mu
(33)
mu_2^'=mu^2+sigma^2
(34)
mu_3^'=mu(mu^2+3sigma^2)
(35)
mu_4^'=mu^4+6mu^2sigma^2+3sigma^4.
(36)

现在找到中心矩

mu_1=0
(37)
mu_2=sigma^2
(38)
mu_3=0
(39)
mu_4=3sigma^4.
(40)

方差偏度超额峰度由下式给出

var(x)=sigma^2
(41)
gamma_1=0
(42)
gamma_2=0.
(43)

正态分布的累积量生成函数

K(h)=ln(e^(nu_1h)e^(sigma^2h^2/2))
(44)
=nu_1h+1/2sigma^2h^2,
(45)

所以

kappa_1=nu_1
(46)
kappa_2=sigma^2
(47)
kappa_r=0  for r>2.
(48)

对于正态变量,当 r>2 时,kappa_r=0,因此 k 统计量 k_3 的方差为

var(k_3)=(kappa_6)/N+(9kappa_2kappa_4)/(N-1)+(9kappa_3^2)/(N-1)+(6kappa_2^3)/(N(N-1)(N-2))
(49)
=(6kappa_2^3)/(N(N-1)(N-2)).
(50)

此外,

var(k_4)=(24k_2^4N(N-1)^2)/((N-3)(N-2)(N+3)(N+5))
(51)
var(g_1)=(6N(N-1))/((N-2)(N+1)(N+3))
(52)
var(g_2)=(24N(N-1)^2)/((N-3)(N-2)(N+3)(N+5)),
(53)

其中

g_1=(k_3)/(k_2^(3/2))
(54)
g_2=(k_4)/(k_2^2).
(55)

一般分布的样本方差 s^2方差由下式给出

 var(s^2)=((N-1)[(N-1)mu_4-(N-3)mu_2^2])/(N^3),
(56)

在正态分布的情况下简化为

 var(s^2)=(2sigma^4(N-1))/(N^2)
(57)

(Kenney 和 Keeping 1951,第 164 页)。

如果 P(x) 是正态分布,则

 D(x)=1/2[1+erf((x-mu)/(sigmasqrt(2)))],
(58)

因此,具有正态分布的变量 X_i 可以从在 (0,1) 中具有均匀分布的变量 Y_i 通过下式生成

 X_i=sigmasqrt(2)erf^(-1)(2Y_i-1)+mu.
(59)

然而,获得具有正态分布的数字的更简单方法是使用Box-Muller 变换

以正态分布作为其解的微分方程是

 (dy)/(dx)=(y(mu-x))/(sigma^2),
(60)

因为

 (dy)/y=(mu-x)/(sigma^2)dx
(61)
 ln(y/(y_0))=-1/(2sigma^2)(mu-x)^2
(62)
 y=y_0e^(-(x-mu)^2/(2sigma^2)).
(63)

此方程已被推广以产生更复杂的分布,这些分布使用所谓的皮尔逊系统命名。

正态分布也是卡方分布的一种特殊情况,因为进行替换

 1/2z=((x-mu)^2)/(2sigma^2)
(64)

得到

d(1/2z)=((x-mu))/(sigma^2)dx
(65)
=(sqrt(z))/sigmadx.
(66)

现在,实线 x in (-infty,infty) 通过此变换映射到半无限区间 z in [0,infty),因此必须向 d(z/2) 添加额外的因子 2,将 P(x)dx 转换为

P(z)dz=1/(sigmasqrt(2pi))e^(-z/2)sigma/(sqrt(z))2(1/2dz)
(67)
=(e^(-z/2)z^(-1/2))/(2^(1/2)Gamma(1/2))dz
(68)

(Kenney 和 Keeping 1951,第 98 页),其中使用了恒等式 Gamma(1/2)=sqrt(pi)。正如承诺的,(68) 是 z 中的卡方分布r=1 (也是 alpha=1/2theta=2伽玛分布)。


另请参阅

二项分布, 二元正态分布, Box-Muller 变换, 中心极限定理, Erf, 误差函数分布, 费希尔-贝伦斯问题, 高尔顿板, 高斯函数, 半正态分布, 逆高斯分布, 柯尔莫哥洛夫-斯米尔诺夫检验, Logit 变换, 正态分布函数, 正态乘积分布, 正态比分布, 正态和分布, Owen T 函数, 皮尔逊系统, 比率分布, 标准正态分布, 四分相关函数, z 分数 在 MathWorld 课堂中探索此主题

使用 Wolfram|Alpha 探索

参考文献

Beyer, W. H. CRC 标准数学表,第 28 版。 Boca Raton, FL: CRC Press, pp. 533-534, 1987.Feller, W. 概率论及其应用导论,第 1 卷,第 3 版。 New York: Wiley, 1968.Feller, W. 概率论及其应用导论,第 2 卷,第 3 版。 New York: Wiley, p. 45, 1971.Havil, J. 伽玛:探索欧拉常数。 Princeton, NJ: Princeton University Press, p. 157, 2003.Kenney, J. F. 和 Keeping, E. S. 统计数学,第 2 部分,第 2 版。 Princeton, NJ: Van Nostrand, 1951.Kraitchik, M. "误差曲线。" §6.4 in 数学娱乐。 New York: W. W. Norton, pp. 121-123, 1942.Papoulis, A. 概率、随机变量和随机过程,第 2 版。 New York: McGraw-Hill, pp. 100-101, 1984.Patel, J. K. 和 Read, C. B. 正态分布手册。 New York: Dekker, 1982.Spiegel, M. R. 概率与统计理论与问题。 New York: McGraw-Hill, pp. 109-111, 1992.Steinhaus, H. 数学快照,第 3 版。 New York: Dover, pp. 285-290, 1999.Whittaker, E. T. 和 Robinson, G. "正态频率分布。" Ch. 8 in 观测计算:数值数学专著,第 4 版。 New York: Dover, pp. 164-208, 1967.

在 Wolfram|Alpha 上被引用

正态分布

引用为

Weisstein, Eric W. “正态分布。” 来自 MathWorld--Wolfram Web 资源。 https://mathworld.net.cn/NormalDistribution.html

主题分类