相关系数是介于-1和1之间的一个数,描述了各个数据点与直线的偏离程度。通过它可以量度回归线与数据线的拟合度,通常用字幕r表示。
如果r等于-1,则数据为完全负线性相关,所有数据点都在一条直线上;如果r等于1,则数据完全正线性相关;如果r等于0,则不存在相关性。
相关系数-r
-1、0和1均为极值,通常r为介于这几个极值之间的数值:
如果r为负,则两个变量之间呈负线性相关,r越接近-1,相关性越强,数据点距离直线越近;
如果r为正,则两个变量之间呈正线性相关,r越接近1,相关性越强;
随着r向0靠近,线性相关性变弱,此时回归线无法预测y值,变量之间的关系可能是非线性的。
在计算相关系数之前,还需要通过误差平方和计算出斜率b,相关系数计算公式如下:
相关系数r的计算公式
我们再用音乐会的数据来进行相关系数的计算:
通过之前的计算,已得出b=5.53,根据公式先计算出Sx和Sy:
Sx=1.81,Sy=10.56
r = b*Sx / Sy = 5.32 * 1.81 / 10.56 = 0.91(保留两位小数)
相关系数接近1,说明音乐会听众人数和预计天晴人数之间有很强的正相关性,所以最佳拟合线y=15.80 5.32x是比较精确的线性数据模型。