相关系数,有时也称为互相关系数、皮尔逊相关系数 (PCC)、皮尔逊 、皮尔逊积矩相关系数 (PPMCC) 或双变量相关,是一个用于衡量对原始数据进行最小二乘拟合质量的量。 为了定义相关系数,首先考虑一组 个数据点 围绕各自均值的平方和 、 和 ,
(1)
| |||
(2)
| |||
(3)
| |||
(4)
| |||
(5)
| |||
(6)
| |||
(7)
| |||
(8)
| |||
(9)
| |||
(10)
| |||
(11)
| |||
(12)
|
(13)
| |||
(14)
| |||
(15)
|
(16)
|
由下式给出
(17)
| |||
(18)
|
以及方程中的系数
(19)
|
由下式给出
(20)
|
相关系数 (有时也表示为 ) 然后由下式定义
(21)
| |||
(22)
|
相关系数也称为积矩相关系数或皮尔逊相关。 上图显示了对噪声数据进行线性拟合的相关系数。
相关系数具有重要的物理意义。 为了理解这一点,定义
(23)
|
并将 的“期望”值表示为 。 然后 的和为
(24)
| |||
(25)
| |||
(26)
| |||
(27)
| |||
(28)
| |||
(29)
| |||
(30)
| |||
(31)
| |||
(32)
| |||
(33)
|
则误差平方和为
(34)
| |||
(35)
| |||
(36)
| |||
(37)
| |||
(38)
| |||
(39)
| |||
(40)
| |||
(41)
|
残差平方和为
(42)
| |||
(43)
| |||
(44)
| |||
(45)
| |||
(46)
|
但是
(47)
| |||
(48)
|
所以
(49)
| |||
(50)
| |||
(51)
| |||
(52)
|
并且
(53)
|
因此,相关系数 的平方由下式给出
(54)
| |||
(55)
| |||
(56)
|
换句话说, 是由回归解释的 的比例。
如果存在完全相关性,则通过求解最佳拟合 和 得到的直线重合(因为所有数据点都位于它们之上),因此求解 (◇) 中的 并将其等同于 (◇) 得出
(57)
|
因此, 且 ,得出
(58)
|
相关系数与原点和尺度无关,因此
(59)
|
其中
(60)
| |||
(61)
|