主题
Search

相关系数


相关系数,有时也称为互相关系数、皮尔逊相关系数 (PCC)、皮尔逊 r、皮尔逊积矩相关系数 (PPMCC) 或双变量相关,是一个用于衡量对原始数据进行最小二乘拟合质量的量。 为了定义相关系数,首先考虑一组 n 个数据点 (x_i,y_i) 围绕各自均值的平方和 ss_(xx)ss_(xy)ss_(yy)

ss_(xx)=sum(x_i-x^_)^2
(1)
=sumx^2-2x^_sumx+sumx^_^2
(2)
=sumx^2-2nx^_^2+nx^_^2
(3)
=sumx^2-nx^_^2
(4)
ss_(yy)=sum(y_i-y^_)^2
(5)
=sumy^2-2y^_sumy+sumy^_^2
(6)
=sumy^2-2ny^_^2+ny^_^2
(7)
=sumy^2-ny^_^2
(8)
ss_(xy)=sum(x_i-x^_)(y_i-y^_)
(9)
=sum(x_iy_i-x^_y_i-x_iy^_+x^_y^_)
(10)
=sumxy-nx^_y^_-nx^_y^_+nx^_y^_
(11)
=sumxy-nx^_y^_.
(12)

这些量只是 XY方差协方差的未归一化形式,由下式给出

ss_(xx)=Nvar(X)
(13)
ss_(yy)=Nvar(Y)
(14)
ss_(xy)=Ncov(X,Y).
(15)

对于线性最小二乘拟合,方程中的系数 b

 y=a+bx
(16)

由下式给出

b=(nsumxy-sumxsumy)/(nsumx^2-(sumx)^2)
(17)
=(ss_(xy))/(ss_(xx)),
(18)

以及方程中的系数 b^'

 x=a^'+b^'y
(19)

由下式给出

 b^'=(nsumxy-sumxsumy)/(nsumy^2-(sumy)^2).
(20)
CorrelationCoefficient

相关系数 r (有时也表示为 R) 然后由下式定义

r^2=bb^'
(21)
=(ss_(xy)^2)/(ss_(xx)ss_(yy)).
(22)

相关系数也称为积矩相关系数或皮尔逊相关。 上图显示了对噪声数据进行线性拟合的相关系数。

相关系数具有重要的物理意义。 为了理解这一点,定义

 A=[sumx^2-nx^_^2]^(-1)
(23)

并将 y_i 的“期望”值表示为 y^^_i。 然后 y^^_i 的和为

y^^_i=a+bx_i
(24)
=y^_-bx^_+bx_i
(25)
=y^_+b(x_i-x^_)
(26)
=A(y^_sumx^2-x^_sumxy+x_isumxy-nx^_y^_x_i)
(27)
=A[y^_sumx^2+(x_i-x^_)sumxy-nx^_y^_x_i]
(28)
sumy^^_i=A(ny^_sumx^2-n^2x^_^2y^_)
(29)
sumy^^_i^2=A^2[ny^_^2(sumx^2)^2-n^2x^_^2y^_^2(sumx^2)-2nx^_y^_(sumxy)(sumx^2)+2n^2x^_^3y^_(sumxy)+(sumx^2)(sumxy)^2-nx^_^2(sumxy)]
(30)
sumy_iy^^_i=Asum[y_iy^_sumx^2+y_i(x_i-x^_)sumxy-nx^_y^_x_iy_i]
(31)
=A[ny^_^2sumx^2+(sumxy)^2-nx^_y^_sumxy-nx^_y^_(sumxy)]
(32)
=A[ny^_^2sumx^2+(sumxy)^2-2nx^_y^_sumxy].
(33)

则误差平方和为

SSE=sum(y^^_i-y^_)^2
(34)
=sum(y^^_i^2-2y^_y^^_i+y^_^2)
(35)
=A^2(sumxy-nx^_y^_)^2(sumx^2-nx^_^2)
(36)
=((sumxy-nx^_y^_)^2)/(sumx^2-nx^_^2)
(37)
=bss_(xy)
(38)
=(ss_(xy)^2)/(ss_(xx))
(39)
=ss_(yy)r^2
(40)
=b^2ss_(xx),
(41)

残差平方和为

SSR=sum(y_i-y^^_i)^2
(42)
=sum(y_i-y^_+bx^_-bx_i)^2
(43)
=sum[y_i-y^_-b(x_i-x^_)]^2
(44)
=sum(y_i-y^_)^2+b^2sum(x_i-x^_)^2-2bsum(x_i-x^_)(y_i-y^_)
(45)
=ss_(yy)+b^2ss_(xx)-2bss_(xy).
(46)

但是

b=(ss_(xy))/(ss_(xx))
(47)
r^2=(ss_(xy)^2)/(ss_(xx)ss_(yy)),
(48)

所以

SSR=ss_(yy)+(ss_(xy)^2)/(ss_(xx)^2)ss_(xx)-2(ss_(xy))/(ss_(xx))ss_(xy)
(49)
=ss_(yy)-(ss_(xy)^2)/(ss_(xx))
(50)
=ss_(yy)(1-(ss_(xy)^2)/(ss_(xx)ss_(yy)))
(51)
=ss_(yy)(1-r^2),
(52)

并且

 SSE+SSR=ss_(yy)(1-r^2)+ss_(yy)r^2=ss_(yy).
(53)

因此,相关系数 r^2 的平方由下式给出

r^2=(SSR)/(ss_(yy))
(54)
=(ss_(xy)^2)/(ss_(xx)ss_(yy))
(55)
=((sumxy-nx^_y^_)^2)/((sumx^2-nx^_^2)(sumy^2-ny^_^2)).
(56)

换句话说,r^2 是由回归解释的 ss_(yy) 的比例。

如果存在完全相关性,则通过求解最佳拟合 (a,b)(a^',b^') 得到的直线重合(因为所有数据点都位于它们之上),因此求解 (◇) 中的 y 并将其等同于 (◇) 得出

 y=-(a^')/(b^')+x/(b^')=a+bx.
(57)

因此,a=-a^'/b^'b=1/b^',得出

 r^2=bb^'=1.
(58)

相关系数与原点和尺度无关,因此

 r(u,v)=r(x,y),
(59)

其中

u=(x-x_0)/h
(60)
v=(y-y_0)/h.
(61)

另请参阅

相关指数, 相关系数--双变量正态分布, 相关比率, 协方差, 最小二乘拟合, 回归系数, 斯皮尔曼等级相关系数, 方差 在 MathWorld 课堂中探索此主题

使用 Wolfram|Alpha 探索

参考文献

Acton, F. S. 直线数据分析。 New York: Dover, 1966.Edwards, A. L. "相关系数。" Ch. 4 in 线性回归与相关性导论。 San Francisco, CA: W. H. Freeman, pp. 33-46, 1976.Gonick, L. and Smith, W. "回归。" Ch. 11 in 统计学漫画指南。 New York: Harper Perennial, pp. 187-210, 1993.Kenney, J. F. and Keeping, E. S. "线性回归与相关性。" Ch. 15 in 统计数学,第一部分,第三版。 Princeton, NJ: Van Nostrand, pp. 252-285, 1962.Press, W. H.; Flannery, B. P.; Teukolsky, S. A.; and Vetterling, W. T. "线性相关。" §14.5 in FORTRAN 数值食谱:科学计算的艺术,第二版。 Cambridge, England: Cambridge University Press, pp. 630-633, 1992.Snedecor, G. W. and Cochran, W. G. "样本相关系数 r" 和 " r 的属性。" §10.1-10.2 in 统计方法,第七版。 Ames, IA: Iowa State Press, pp. 175-178, 1980.Spiegel, M. R. "相关理论。" Ch. 14 in 概率与统计理论及问题,第二版。 New York: McGraw-Hill, pp. 294-323, 1992.Whittaker, E. T. and Robinson, G. "非正态频率分布的相关系数。" §166 in 观测微积分:数值数学论著,第四版。 New York: Dover, pp. 334-336, 1967.

在 Wolfram|Alpha 中被引用

相关系数

引用为

Weisstein, Eric W. "相关系数。" 来自 MathWorld--Wolfram Web 资源。 https://mathworld.net.cn/CorrelationCoefficient.html

主题分类