1.皮尔逊相关系数(Pearson Correlation Coefficient)
1)衡量两个值线性相关强度的量;
2)取值范围:[-1,1]
正向相关:>0,负向相关:<0,无相关性:=0
3)定义
2.R平方值
1)定义:决定系数,反应因变量的全部变异能通过回归关系被自变量解释的比例;
2)描述:如R平方为0.8,则表示回归关系可以解释因变量80%的变异;即如果自变量不变,则因变量的变异程度会减少80%
3)简单线性回归:R^2=r*r
多元线性回归:
3.R平方局限性
R平方随着自变量的增大会变大,R平方和样本量是有关系的。所以,需要对R平方进行修正,修正方法为:
4.代码实现相关系数和R平方的计算
1)代码
# -*- coding: utf-8 -*-
import numpy as np
from astropy.units import Ybarn
import math
#根据相关系数计算公式给出实现过程
def computerCorrelation(X,Y):
xBar = np.mean(X)
yBar = np.mean(Y)
SSR = 0
varX = 0
varY = 0
for i in range(0,len(X)):
diffXXBar = X[i]-xBar
diffYYBar = Y[i]-yBar
SSR+=(diffXXBar*diffYYBar)
varX += diffXXBar**2
varY += diffYYBar**2
SST = math.sqrt(varX*varY)
return SSR/SST
#计算R平方
#degree为最高次的数值
def polyfit(X,Y,degree):
results = {}
#调用函数实现回归中参数计算
coeffs = np.polyfit(X,Y,degree)
#将结果转化为list
results["polynomial"] = coeffs.tolist()
#传入参数给出预测方程
p = np.poly1d(coeffs)
#给出y的预测值
yhat = p(X)
ybar = np.sum(Y)/len(Y)
ssreg = np.sum((yhat-ybar)**2)
sstot = np.sum((Y-ybar)**2)
results["determirnation"] = ssreg/sstot
return results
testX = [1,3,8,7,9]
testY = [10,12,24,21,34]
print("r:",computerCorrelation(testX,testY))
#线性相关时的特殊情况
print("r平方:",computerCorrelation(testX,testY)**2)
print("r平方",polyfit(testX,testY,1)["determirnation"])
2)结果
r: 0.940310076545r平方: 0.884183040052
r平方 0.884183040052
3)结果说明
在一元线性相关的情况下:R^2=r*r