主题
Search

统计相关性


对于两个随机变量 XY,相关性定义为

 cor(X,Y)=(cov(X,Y))/(sigma_Xsigma_Y),
(1)

其中 sigma_X 表示标准差cov(X,Y) 是这两个变量的协方差。对于变量 X_iX_j 的一般情况,其中 i,j=1, 2, ..., n,

 cor(X_i,X_j)=(cov(X_i,X_j))/(sqrt(V_(ii)V_(jj))),
(2)

其中 V_(ii)协方差矩阵的元素。一般来说,相关性表示变量之间关系的强度。对于 i=j,

 cor(X_i,X_i)=(cov(X_i,X_i))/(sigma_i^2)=1.
(3)

根据定义,任何量的方差始终是非负的,因此

 var(X/(sigma_X)+Y/(sigma_Y))>=0.
(4)

根据方差的性质,总和可以展开

 var(X/(sigma_X))+var(Y/(sigma_Y))+2cov(X/(sigma_X),Y/(sigma_Y))>=0
(5)
 1/(sigma_X^2)var(X)+1/(sigma_Y^2)var(Y)+2/(sigma_Xsigma_Y)cov(X,Y)>=0
(6)
 1+1+2/(sigma_Xsigma_Y)cov(X,Y)=2+2/(sigma_Xsigma_Y)cov(X,Y)>=0.
(7)

因此,

 cor(X,Y)=(cov(X,Y))/(sigma_Xsigma_Y)>=-1.
(8)

类似地,

 var(X/(sigma_X)-Y/(sigma_Y))>=0
(9)
 var(X/(sigma_X))+var(-Y/(sigma_Y))+2cov(X/(sigma_X),-Y/(sigma_Y))>=0
(10)
 1/(sigma_X^2)var(X)+1/(sigma_Y^2)var(Y)-2/(sigma_Xsigma_Y)cov(X,Y)>=0
(11)
 1+1-2/(sigma_Xsigma_Y)cov(X,Y)=2-2/(sigma_Xsigma_Y)cov(X,Y)>=0.
(12)

因此,

 cor(X,Y)=(cov(X,Y))/(sigma_Xsigma_Y)<=1,
(13)

所以 -1<=cor(X,Y)<=1

对于两个变量的线性组合

var(Y-bX)=var(Y)+var(-bX)+2cov(Y,-bX)
(14)
=var(Y)+b^2var(X)-2bcov(X,Y)
(15)
=sigma_Y^2+b^2sigma_X^2-2bcov(X,Y)
(16)
=sigma_Y^2+b^2sigma_X^2-2bsigma_Xsigma_Ycor(X,Y).
(17)

考察 cor(X,Y)=+/-1 的情况,

 cor(X,Y)=(cov(X,Y))/(sigma_Xsigma_Y)=+/-1
(18)
 var(Y-bX)=b^2sigma_X^2+sigma_Y^2∓2bsigma_Xsigma_Y=(bsigma_X∓sigma_Y)^2.
(19)

如果 b=+/-sigma_Y/sigma_X方差将为零,这要求 方差的参数是一个常数。因此,y-bx=a,所以 y=a+bx。如果 cor(X,Y)=+/-1,则 yx 完全正相关 (b>0) 或完全负相关 (b<0)。


另请参阅

协方差, 协方差矩阵, 方差

使用 Wolfram|Alpha 探索

请引用为

Weisstein, Eric W. “统计相关性。” 来自 MathWorld——Wolfram Web 资源。https://mathworld.net.cn/StatisticalCorrelation.html

主题分类