主题
Search

超几何分布


假设有 n 种“好”选择的方式,以及 m 种“坏”选择的方式,总共有 n+m 种可能性。抽取 N 个样本,并令 x_i 等于 1 如果第 i 次选择成功,否则为 0。令 x 为成功的选择的总数,

 x=sum_(i=1)^Nx_i.
(1)

那么,i 次成功选择的概率为

P(x=i)=([# ways for i successes][# ways for N-i failures])/([total number of ways to select])
(2)
=((n; i)(m; N-i))/((m+n; N))
(3)
=(m!n!N!(m+n-N)!)/(i!(n-i)!(m+i-N)!(N-i)!(m+n)!).
(4)

超几何分布在 Wolfram 语言 中实现为HypergeometricDistribution[N, n, m+n].

寻找这种抽取问题的概率有时被称为“瓮问题”,因为它询问从一个包含 n 个“好”球和 m 个“坏”球的瓮中抽取 N 个球时,恰好有 i 个“好”球的概率。因此,它也描述了在从 r 个球的库中选择 N 个球的彩票中,获得正好 i 个正确球的概率(其中 n=N 个是“好”球,m=r-N 个是“坏”球)。例如,对于 N=6r=36,获得 i 个正确球的概率在下表中给出。

正确数量概率赔率
00.30482.280:1
10.43901.278:1
20.21103.738:1
30.0416922.99:1
40.003350297.5:1
59.241×10^(-5)10820:1
65.134×10^(-7)1.948×10^6:1

i 次选择在任何试验中具有相同的可能性,因此可接受选择的比例 p

 p=n/(m+n),
(5)

即,

 P(x_i=1)=n/(m+n).
(6)

因此,x 的期望值为

mu=<sum_(i=1)^(N)x_i>
(7)
=sum_(i=1)^(N)<x_i>
(8)
=sum_(i=1)^(N)n/(m+n)
(9)
=(nN)/(m+n).
(10)

这也可以通过直接求和计算得出,如下所示

mu=sum_(i=0)^(N)i((n; i)(m; N-i))/((n+m; N))
(11)
=(nN)/(m+n).
(12)

方差

 var(x)=sum_(i=1)^Nvar(x_i)+sum_(i=1)^Nsum_(j=1; j!=i)^Ncov(x_i,x_j).
(13)

由于 x_i 是一个 伯努利 变量,

var(x_i)=p(1-p)
(14)
=n/(n+m)(1-n/(n+m))
(15)
=n/(n+m)(1-n/(n+m))
(16)
=n/(n+m)((n+m-n)/(n+m))
(17)
=(nm)/((n+m)^2),
(18)

所以

 sum_(i=1)^Nvar(x_i)=(Nnm)/((n+m)^2).
(19)

对于 i<j协方差

 cov(x_i,x_j)=<x_ix_j>-<x_i><x_j>.
(20)

对于 i!=jij 都成功的概率为

P(x_i=1,x_j=1)=P(x_i=1)P(x_j=1|x_i=1)
(21)
=n/(n+m)(n-1)/(n+m-1)
(22)
=(n(n-1))/((n+m)(n+m-1)).
(23)

但是由于 x_ix_j 是随机的 伯努利 变量(每个变量为 0 或 1),它们的乘积也是一个 伯努利 变量。为了使 x_ix_j 为 1,x_ix_j 都必须为 1,

<x_ix_j>=P(x_ix_j=1)=P(x_i=1,x_j=1)
(24)
=n/(n+m)(n-1)/(n+m-1)
(25)
=(n(n-1))/((n+m)(n+m-1)).
(26)

将 (26) 与

<x_i><x_j>=n/(n+m)n/(n+m)
(27)
=(n^2)/((n+m)^2),
(28)

结合得到

cov(x_i,x_j)=((n+m)(n^2-n)-n^2(n+m-1))/((n+m)^2(n+m-1))
(29)
=-(mn)/((n+m)^2(n+m-1)).
(30)

在一个对 N 的双重求和中,总共有 N^2 项。然而,对于 N 项,i=j,因此在 协方差 求和中总共有 N^2-N=N(N-1)

 sum_(i=1)^Nsum_(j=1; j!=i)^Ncov(x_i,x_j)=-(N(N-1)mn)/((n+m)^2(n+m-1)).
(31)

结合方程 (◇), (◇), (◇), 和 (◇) 得到 方差

var(x)=(Nmn)/((n+m)^2)-(N(N-1)mn)/((n+m)^2(n+m-1))
(32)
=(Nmn(n+m-N))/((n+m)^2(n+m-1)),
(33)

因此最终结果是

 <x>=Np
(34)

并且,由于

 1-p=m/(n+m)
(35)

 np(1-p)=(mn)/((n+m)^2),
(36)

我们有

sigma^2=var(x)
(37)
=Np(1-p)(1-(N-1)/(n+m-1))
(38)
=(mnN(m+n-N))/((m+n)^2(m+n-1)).
(39)

这也可以直接从以下总和计算得出

sigma^2=sum_(i=0)^(N)((n; i)(m; N-i))/((n+m; N))(i-mu)^2
(40)
=(mnN(m+n-N))/((m+n)^2(m+n-1)).
(41)

偏度

gamma_1=(q-p)/(sqrt(npq))sqrt((N-1)/(N-m))((N-2n)/(N-2))
(42)
=((m-n)(m+n-2N))/(m+n-2)sqrt((m+n-1)/(mnN(m+n-N))),
(43)

超额峰度由一个复杂的表达式给出。

生成函数

 phi(t)=((m; N))/((n+m; N))_2F_1(-N,-n;m-N+1;e^(it)),
(44)

其中 _2F_1(a,b;c;z)超几何函数

如果超几何分布写成

 h_n(x,s)=((np; x)(nq; s-x))/((n; s)),
(45)

那么

 sum_(x=0)^sh_n(x,s)u^x=A_2F_1(-s,-np;nq-s+1;u),
(46)

其中 A 是一个常数。


另请参阅

Multichoose

使用 Wolfram|Alpha 探索

参考文献

Beyer, W. H. CRC Standard Mathematical Tables, 28th ed. Boca Raton, FL: CRC Press, pp. 532-533, 1987.Feller, W. "The Hypergeometric Series." §2.6 in An Introduction to Probability Theory and Its Applications, Vol. 1, 3rd ed. New York: Wiley, pp. 41-45, 1968.Spiegel, M. R. Theory and Problems of Probability and Statistics. New York: McGraw-Hill, pp. 113-114, 1992.

在 Wolfram|Alpha 上引用

超几何分布

请引用为

Weisstein, Eric W. “超几何分布。” 来自 MathWorld--一个 Wolfram Web 资源。 https://mathworld.net.cn/HypergeometricDistribution.html

学科分类