主题
Search

相关系数--二元正态分布


对于 二元正态分布,相关 系数 的分布由下式给出

P(r)=1/pi(N-2)(1-r^2)^((N-4)/2)(1-rho^2)^((N-1)/2)int_0^infty(dbeta)/((coshbeta-rhor)^(N-1))
(1)
=1/pi(N-2)(1-r^2)^((N-4)/2)(1-rho^2)^((N-1)/2)sqrt(pi/2)(Gamma(N-1))/(Gamma(N-1/2))×(1-rhor)^(-(N-3/2))_2F_1(1/2,1/2,(2N-1)/2;(rhor+1)/2)
(2)
=((N-2)Gamma(N-1)(1-rho^2)^((N-1)/2)(1-r^2)^((N-4)/2))/(sqrt(2pi)Gamma(N-1/2)(1-rhor)^(N-3/2))×[1+1/4(rhor+1)/(2N-1)+9/(16)((rhor+1)^2)/((2N-1)(2N+1))+...],
(3)

其中 rho 是总体相关 系数_2F_1(a,b;c;x)超几何函数Gamma(z)伽玛函数 (Kenney and Keeping 1951, pp. 217-221)。

<r>=rho-(rho(1-rho^2))/(2n)
(4)
var(r)=((1-rho^2)^2)/n(1+(11rho^2)/(2n)+...)
(5)
gamma_1=(6rho)/(sqrt(n))(1+(77rho^2-30)/(12n)+...)
(6)
gamma_2=6/n(12rho^2-1)+...,
(7)

其中 n=N-1。 如果变量不相关,则 rho=0

_2f_1(1/2,1/2,(2n-1)/2;(rhor+1)/2)=_2F_1(1/2,1/2,(2N-1)/2;1/2)
(8)
=(Gamma(N-1/2)2^(3/2-N)sqrt(pi))/([Gamma(N/2)]^2),
(9)

因此

P(r)=((N-2)Gamma(N-1))/(sqrt(2pi)Gamma(N-1/2))(1-r^2)^((N-4)/2)(Gamma(N-1/2)2^(3/2-N)sqrt(pi))/([Gamma(N/2)]^2)
(10)
=(2^(1-N)(N-2)Gamma(N-1))/([Gamma(N/2)]^2)(1-r^2)^((N-4)/2).
(11)

但根据 勒让德倍乘公式

 sqrt(pi)Gamma(N-1)=2^(N-2)Gamma(N/2)Gamma((N-1)/2),
(12)

因此

P(r)=((2^(1-N))(2^(N-2))(N-2)Gamma(N/2)Gamma((N-1)/2))/(sqrt(pi)[Gamma(N/2)]^2)(1-r^2)^((N-4)/2)
(13)
=((N-2)Gamma((N-1)/2))/(2sqrt(pi)Gamma(N/2))(1-r^2)^((N-4)/2)
(14)
=1/(sqrt(pi))(nu/2Gamma((nu+1)/2))/(Gamma(nu/2+1))(1-r^2)^((nu-2)/2)
(15)
=1/(sqrt(pi))(Gamma((nu+1)/2))/(Gamma(nu/2))(1-r^2)^((nu-2)/2).
(16)

不相关的情况可以通过令 beta 为真斜率更简单地导出,使得 eta=alpha+betax。 然后

 t=(b-beta)(s_x)/(s_y)sqrt((N-2)/(1-r^2))=((b-beta)r)/bsqrt((N-2)/(1-r^2))
(17)

分布为自由度为 nu=N-2自由度学生t分布。 令总体回归 系数 rho 为 0,则 beta=0,因此

 t=rsqrt(nu/(1-r^2)),
(18)

且分布为

 P(t)dt=1/(sqrt(nupi))(Gamma((nu+1)/2))/(Gamma(nu/2)(1+(t^2)/nu)^((nu+1)/2))dt.
(19)

代入 t 并使用

dt=sqrt(nu)[(sqrt(1-r^2)-r(1/2)(-2r)(1-r^2)^(-1/2))/(1-r^2)]dr
(20)
=sqrt(nu/(1-r^2))((1-r^2+r^2)/(1-r^2))dr
(21)
=sqrt(nu/((1-r)^3))dr
(22)

得到

P(t)dt=1/(sqrt(nupi))(Gamma((nu+1)/2))/(Gamma(nu/2)[1+(r^2nu)/((1-r^2)nu)]^((nu+1)/2))sqrt(nu/((1-r)^3))dr
(23)
=((1-r^2)^(-3/2))/(sqrt(pi))(Gamma((nu+1)/2))/(Gamma(nu/2)(1/(1-r^2))^((nu+1)/2))dr
(24)
=1/(sqrt(pi))(Gamma((nu+1)/2))/(Gamma(nu/2))(1-r^2)^(-3/2)(1-r^2)^((nu+1)/2)dr
(25)
=1/(sqrt(pi))(Gamma((nu+1)/2))/(Gamma(nu/2))(1-r^2)^((nu-2)/2)dr,
(26)

因此

 P(r)=1/(sqrt(pi))(Gamma((nu+1)/2))/(Gamma(nu/2))(1-r^2)^((nu-2)/2)
(27)

如前所述。 参见 Bevington (1969, pp. 122-123) 或 Pugh 和 Winslow (1966, §12-8)。 如果我们对获得相关 系数 会是 >=|r| 的概率感兴趣,其中 r 是观察到的 系数,则

P_c(r,N)=2int_(|r|)^1P(r^',N)dr^'
(28)
=1-2int_0^(|r|)P(r^',N)dr^'
(29)
=1-2/(sqrt(pi))(Gamma((nu+1)/2))/(Gamma(nu/2))int_0^(|r|)(1-r^2)^((nu-2)/2)dr.
(30)

I=1/2(nu-2)。 对于偶数 nu,指数 I 是一个整数,因此,根据二项式定理

 (1-r^2)^I=sum_(k=0)^I(I; k)(-r^2)^k
(31)

P_c(r)=1-2/(sqrt(pi))(Gamma((nu+1)/2))/(Gamma(nu/2))(-1)^k(I!)/((I-k)!k!)int_0^(|r|)sum_(k=0)^(I)r^('2k)dr^'
(32)
=1-2/(sqrt(pi))(Gamma((nu+1)/2))/(Gamma(nu/2))sum_(k=0)^(I)[(-1)^k(I!)/((I-k)!k!)(|r|^(2k+1))/(2k+1)].
(33)

对于奇数 nu,积分是

P_c(r)=1-2int_0^(|r|)P(r^')dr^'
(34)
=1-2/(sqrt(pi))(Gamma((nu+1)/2))/(Gamma(nu/2))int_0^(|r|)(sqrt(1-r^2))^(nu-2)dr.
(35)

r=sinx,因此 dr=cosxdx,然后

P_c(r)=1-2/(sqrt(pi))(Gamma[((nu+1)/2)])/(Gamma(nu/2))int_0^(sin^(-1)|r|)cos^(nu-2)xcosxdx
(36)
=1-2/(sqrt(pi))(Gamma((nu+1)/2))/(Gamma(nu/2))+int_0^(sin^(-1)|r|)cos^(nu-1)xdx.
(37)

但是 nu奇数,因此 nu-1=2n偶数。 因此

 2/(sqrt(pi))(Gamma((nu+1)/2))/(Gamma(nu/2))=2/pi((2n)!!)/((2n-1)!!).
(38)

与来自余弦积分的结果结合得到

 P_c(r)=1-2/pi((2n)!!(2n-1)!!)/((2n-1)!!(2n)!!)[sinxsum_(k=0)^(n-1)((2k)!!)/((2k+1)!!)cos^(2k+1)x+x]_0^(sin^(-1)|r|).
(39)

使用

 cos^(2k-1)x=(1-r^2)^((2k-1)/2)=(1-r^2)^((k-1/2)),
(40)

并定义 J=n-1=(nu-3)/2,然后

 P_c(r)=1-2/pi[sin^(-1)|r|+|r|sum_(k=0)^J((2k)!!)/((2k+1)!!)(1-r^2)^(k+1/2)].
(41)

(在 Bevington 1969 年,此处给出错误。) 结合正确的解

 P_c(r)={1-2/(sqrt(pi))(Gamma[(nu+1)/2])/(Gamma(nu/2))sum_(k=0)^I[(-1)^k(I!)/((I-k)!k!)(|r|^(2k+1))/(2k+1)];   for nu even; 1-2/pi[sin^(-1)|r|+|r|sum_(k=0)^J((2k)!!)/((2k+1)!!)(1-r^2)^(k+1/2)];   for nu odd
(42)

如果 rho!=0,则获得偏斜分布,但是变量 z 由下式定义

 z=tanh^(-1)r
(43)

近似正态分布,均值为

mu_z=tanh^(-1)rho
(44)
sigma_z^2=1/(N-3)
(45)

(Kenney 和 Keeping 1962, p. 266)。

b_j 为最佳拟合线的斜率,则复相关 系数

 R^2=sum_(j=1)^n(b_j(s_(jy)^2)/(s_y^2))=sum_(j=1)^n(b_j(s_j)/(s_y)r_(jy)),
(46)

其中 s_(jy) 是样本 方差

在球面上,

 r=(intfgdOmega)/(intfdOmegaintgdOmega),
(47)

其中 dOmega 是微分立体角。 此定义保证 -1<r<1。 如果 fg 球谐函数中展开,

f(theta,phi)=sum_(l=0)^(infty)sum_(m=0)^(l)[C_l^mY_l^m^c(theta,phi)sin(mphi)+S_l^mY_l^m^s(theta,phi)]
(48)
g(theta,phi)=sum_(l=0)^(infty)sum_(m=0)^(l)[A_l^mY_l^m^c(theta,phi)sin(mphi)+B_l^mY_l^m^s(theta,phi)].
(49)

那么

 r_l=(sum_(m=0)^(l)(C_l^mA_l^m+S_l^mB_l^m))/(sqrt(sum_(m=0)^(l)(C_l^m^2+S_l^m^2))sqrt(sum_(m=0)^(l)(A_l^m^2+B_l^m^2))).
(50)

置信水平由下式给出

G_1(r)=r
(51)
G_2(r)=r(1+1/2s^2)=1/2r(3-r^2)
(52)
G_3(r)=r[1+1/2s^2(1+3/4s^2)]=1/8r(15-10r^2+3r^4)
(53)
G_4(r)=r{1+1/2s^2[1+3/4s^2(1+5/6s^2)]}
(54)
=1/(16)r(35-35r^2+21r^4-5r^6),
(55)

其中

 s=sqrt(1-r^2)
(56)

(Eckhardt 1984)。


另请参阅

相关系数, Fisher's z-变换, Spearman 秩相关系数, 球谐函数

使用 Wolfram|Alpha 探索

参考文献

Bevington, P. R. Data Reduction and Error Analysis for the Physical Sciences. New York: McGraw-Hill, 1969.Eckhardt, D. H. "Correlations Between Global Features of Terrestrial Fields." Math. Geology 16, 155-171, 1984.Kenney, J. F. and Keeping, E. S. Mathematics of Statistics, Pt. 2, 2nd ed. Princeton, NJ: Van Nostrand, 1951.Kenney, J. F. and Keeping, E. S. Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, 1962.Pugh, E. M. and Winslow, G. H. The Analysis of Physical Measurements. Reading, MA: Addison-Wesley, 1966.

请引用为

Weisstein, Eric W. "相关系数--二元正态分布。" 来自 MathWorld--Wolfram Web 资源。 https://mathworld.net.cn/CorrelationCoefficientBivariateNormalDistribution.html

主题分类