一元非线性回归+多元线性回归

一元非线性回归

观察散点图,确定非线性形式,然后将非线性转化为线性求解。

常见的六类曲线:

(1)双曲函数曲线
{ y ^ = x a + b x y ^ = a + b x x y ^ = 1 a + b x \begin{cases} \hat{y}=\frac{x}{a+bx}\\ \hat{y}=\frac{a+bx}{x}\\ \hat{y}=\frac{1}{a+bx} \end{cases} y^=a+bxxy^=xa+bxy^=a+bx1

变换方式:

y ^ = x a + b x \hat{y}=\frac{x}{a+bx} y^=a+bxx,两边取倒数后,令 y ′ = x y ^ y'=\frac{x}{\hat{y}} y=y^x,得: y ′ = a x + b y'=ax+b y=ax+b

y ^ = a + b x x \hat{y}=\frac{a+bx}{x} y^=xa+bx,令 y ′ = x y ^ y'=x\hat{y} y=xy^,得: y ′ = a x + b y'=ax+b y=ax+b

y ^ = 1 a + b x \hat{y}=\frac{1}{a+bx} y^=a+bx1,两边取倒数后,令 y ′ = 1 y ^ y'=\frac{1}{\hat{y}} y=y^1,得: y ′ = a x + b y'=ax+b y=ax+b


(2)幂函数曲线

幂函数( y y y x x x某次幂的函数)方程形式
y ^ = a x b \hat{y}=ax^b y^=axb

变换形式:

两边取对数,令 y ′ = l n y ^ y'=ln{\hat{y}} y=lny^ x ′ = l n x x'=lnx x=lnx a ′ = l n a a'=lna a=lna,得: y ′ = a ′ + b x ′ y'=a'+bx' y=a+bx


(3)指数函数曲线

指数函数(x作为指数出现)方程形式:
{ y ^ = a e b x y ^ = a b x \begin{cases} \hat{y}=ae^{bx}\\ \hat{y}=ab^x \end{cases} {y^=aebxy^=abx

变换方式:

两边取对数,令 y ′ = l n y ^ y'=ln{\hat{y}} y=lny^ a ′ = l n a a'=lna a=lna,得 y ′ = a ′ + b x y'=a'+bx y=a+bx


(4)倒指数曲线

倒指数函数( 1 x \frac{1}{x} x1作为指数曲线)方程形式:
y ^ = a e b x \hat{y}=ae^{\frac{b}{x}} y^=aexb

变换方式:

两边取对数,令 y ′ = l n y ^ y'=ln{\hat{y}} y=lny^ a ′ = l n a a'=lna a=lna x ′ = 1 x x'=\frac{1}{x} x=x1,得: y ′ = a ′ + b x ′ y'=a'+bx' y=a+bx


(5)对数函数曲线

对数函数( x x x作为自然对数出现)方程形式:
y ^ = a + b l n x ( x > 0 ) \hat{y}=a+blnx(x>0) y^=a+blnx(x>0)

变换方式:

x ′ = l n x x'=lnx x=lnx,得 y ^ = a + b x ′ \hat{y}=a+bx' y^=a+bx


(6) S S S型曲线

主要描述动、植物的自然生长过程,又称生长曲线,也可以描述传染病的发展趋势

生长过程的基本特点是开始增长较慢,而在以后的某一范围内迅速增长,达到一定的限度后增长又缓慢下来,曲线呈拉长的 S S S型。著名的’ S S S’型曲线是 L o g i s t i c Logistic Logistic生长曲线
y ^ = k 1 + a e − b x ( a 、 b 、 k 均大于 0 ) x = 0 , y ^ = k 1 + a ; x → ∞ , y ^ = k \hat{y}=\frac{k}{1+ae^{-bx}}(a、b、k均大于0)\\ x=0,\hat{y}=\frac{k}{1+a};x\to \infty,\hat{y}=k y^=1+aebxk(abk均大于0)x=0,y^=1+ak;x,y^=k

变换方式:

两边去倒数再取对数后, y ′ = l n k − y ^ y ^ y'=ln{\frac{k-\hat{y}}{\hat{y}}} y=lny^ky^ a ′ = l n a a'=lna a=lna,得: y ′ = a ′ + b x y'=a'+bx y=a+bx

多元线性回归

数学模型
多元线性回归模型: y = β 0 + β 1 x 1 + … + β k x k + ϵ 多元线性回归模型:y=\beta_0+\beta_1x_1+…+\beta_kx_k+\epsilon 多元线性回归模型:y=β0+β1x1++βkxk+ϵ
其中,位置参数 β 0 \beta_0 β0 β 1 \beta_1 β1称为回归系数, x 1 、 x 2 、 … 、 x k x_1、x_2、…、x_k x1x2xk称为自变量(回归变量), y y y称为因变量(被预测变量), ϵ \epsilon ϵ称为误差项,服从正态分布, E ( ϵ ) = 0 E(\epsilon)=0 E(ϵ)=0 C O V ( ϵ , ϵ ) = σ 2 I n COV(\epsilon,\epsilon)=\sigma^2I_n COV(ϵ,ϵ)=σ2In


回归平面方程: E ( y ) = β 0 + β 1 x 1 + … + β k x k 回归平面方程:E(y)=\beta_0+\beta_1x_1+…+\beta_kx_k 回归平面方程:E(y)=β0+β1x1++βkxk

上面的方程是对多元线性回归方程两边同时求期望得到的


估计的回归平面方程: y ^ = β 0 ^ + β 1 ^ x 1 + … + β k ^ x k 估计的回归平面方程:\hat{y}=\hat{\beta_0}+\hat{\beta_1}x_1+…+\hat{\beta_k}x_k 估计的回归平面方程:y^=β0^+β1^x1++βk^xk

其中 β 0 ^ \hat{\beta_0} β0^ β 1 ^ \hat{\beta_1} β1^ … … β k ^ \hat{\beta_k} βk^是未知参数 β 0 \beta_0 β0 β 1 \beta_1 β1 … … β k \beta_k βk的估计值


模型参数估计

假设有 n n n组独立观测数据 ( x i , y i ) (x_i,y_i) (xi,yi) i = 1 , 2 , 3 , . . . , n i=1,2,3,...,n i=1,2,3,...,n,未知参数 β 0 \beta_0 β0 β 1 \beta_1 β1 … … β k \beta_k βk的估计值分别为 β 0 ^ \hat{\beta_0} β0^ β 1 ^ \hat{\beta_1} β1^ … … β k ^ \hat{\beta_k} βk^,记:
y i ^ = β 0 ^ + β 1 ^ x i 1 + … + β k x i k \hat{y_i}=\hat{\beta_0}+\hat{\beta_1}x_{i1}+…+\beta_kx_{ik}\\ yi^=β0^+β1^xi1++βkxik

Y ^ = [ y 1 ^ y 2 ^ … y n ^ ] , X = [ 1 x 11 x 12 … x 1 k 1 x 21 x 22 … x 2 k … 1 x n 1 x n 2 … x n k ] , β ^ = [ β 0 ^ β 1 ^ … β k ^ ] \hat{Y}=\begin{bmatrix} \hat{y_1}\\ \hat{y_2}\\ …\\ \hat{y_n}\\ \end{bmatrix} , X=\begin{bmatrix} 1\quad x_{11}\quad x_{12}\quad \dots\quad x_{1k}\\ 1\quad x_{21}\quad x_{22}\quad \dots\quad x_{2k}\\ …\\ 1\quad x_{n1}\quad x_{n2}\quad \dots\quad x_{nk}\\ \end{bmatrix} , \hat{\beta}=\begin{bmatrix} \hat{\beta_0}\\ \hat{\beta_1}\\ …\\ \hat{\beta_k} \end{bmatrix} Y^= y1^y2^yn^ X= 1x11x12x1k1x21x22x2k1xn1xn2xnk β^= β0^β1^βk^

根据最小二乘法,使 Q = ∑ ( y i − y i ^ ) 2 = ∑ ( y i − β 0 ^ − β 1 ^ x i 1 − … − β k x i k ) 2 Q=\sum{(y_i-\hat{y_i})^2}=\sum{(y_i-\hat{\beta_0}-\hat{\beta_1}x_{i1}-…-\beta_kx_{ik})^2} Q=(yiyi^)2=(yiβ0^β1^xi1βkxik)2达到最小,即真实数据到拟合平面的距离的平方和最小时,拟合情况最佳。可以解得:
β ^ = ( X T X ) − 1 ( X T Y ) \hat{\beta}=({X^TX})^{-1}(X^TY) β^=(XTX)1(XTY)


拟合优度判定

多元线性回归的拟合优度判定的 离差平方和 S S T 、回归平方和 ( S S R ) 、残差平方和 ( S S E ) 离差平方和SST、回归平方和(SSR)、残差平方和(SSE) 离差平方和SST、回归平方和(SSR)、残差平方和(SSE)与一元线性回归是一样的。

调整的多重判定系数 R α 2 = 1 − ( 1 − R 2 ) ( n − 1 n − k − 1 ) = 1 − ( 1 − S S R S S T ) ( n − 1 n − k − 1 ) ∈ [ 0 , 1 ] R_{\alpha}^2=1-(1-R^2)(\frac{n-1}{n-k-1})=1-(1-\frac{SSR}{SST})(\frac{n-1}{n-k-1})\in[0, 1] Rα2=1(1R2)(nk1n1)=1(1SSTSSR)(nk1n1)[0,1],越接近1,拟合越好;越接近0,拟合越差。前面的相关系数 r r r实际就是判定系数 R 2 R^2 R2的平方根。

均方残差 M S E = S S E n − k − 1 MSE=\frac{SSE}{n-k-1} MSE=nk1SSE,估计标准误差 s e = M S E = S S E n − k − 1 s_e=\sqrt{MSE}=\sqrt{\frac{SSE}{n-k-1}} se=MSE =nk1SSE 是误差项 ϵ \epsilon ϵ的标准差 σ \sigma σ的估计,估计标准差 s e s_e se越接近于0,回归平面对各观测点的代表性就越好


显著性检验

(1)线性关系的检验

第一步:提出假设
H 0 : β i = 0 ( i = 1 , 2 , … , p ) H_0:\beta_i=0(i=1,2,…,p) H0:βi=0(i=1,2,,p)

第二步:计算检验统计量
F = S S R / k S S E / ( n − k − 1 ) ∼ F ( k , n − k − 1 ) F=\frac{SSR/k}{SSE/(n-k-1)}\sim F(k, n-k-1) F=SSE/(nk1)SSR/kF(k,nk1)
第三步:进行决策

先查表得出 F α ( k , n − k − 1 ) F_\alpha(k,n-k-1) Fα(k,nk1)的值,若 F > F α ( k , n − k − 1 ) F>F_\alpha(k,n-k-1) F>Fα(k,nk1),拒绝 H 0 H_0 H0,表明存在显著线性关系


(2)回归系数的检验==(检验自变量对因变量的影响是否显著)==

第一步:提出假设
H 0 : β i = 0 ( i = 1 , 2 , … , p ) H_0:\beta_i=0(i=1,2,…,p) H0:βi=0(i=1,2,,p)
第二步:计算检验统计量
t = β i ^ s β i ^ ∼ t ( n − p − 1 ) , 其中 s β i ^ = s e ∑ x i 2 − 1 n ( ∑ x i ) 2 t=\frac{\hat{\beta_i}}{s_{\hat{\beta_i}}}\sim t(n-p-1),其中s_{\hat{\beta_i}}=\frac{s_e}{\sqrt{\sum{x_i^2}-\frac{1}{n}(\sum{x_i})^2}} t=sβi^βi^t(np1),其中sβi^=xi2n1(xi)2 se
第三步:进行决策

先查表得出 t α 2 ( n − p − 1 ) t_{\frac{\alpha}{2}}(n-p-1) t2α(np1)的值,若 ∣ t ∣ > t α 2 ( n − p − 1 ) |t|>t_{\frac{\alpha}{2}}(n-p-1) t>t2α(np1),拒绝 H 0 H_0 H0,表明回归系数等于0的可能性小于 α \alpha α,自变量对因变量的影响是显著的


预测

(1)点估计

利用估计的回归方程 y ^ = β 0 ^ + β 1 ^ x 1 + … + β k ^ x k \hat{y}=\hat{\beta_0}+\hat{\beta_1}x_1+…+\hat{\beta_k}x_k y^=β0^+β1^x1++βk^xk,对于给定自变量的值 x 1 , x 2 , … , x k x_1,x_2,…,x_k x1x2xk,求出一个估计值

(2)区间估计

y y y 1 − α 1-\alpha 1α的预测区间(置信)区间为 [ y ^ 1 , y ^ 2 ] [\hat{y}_1,\hat{y}_2] [y^1,y^2],其中:
{ y ^ 1 = y ^ − σ ^ e 1 + ∑ i = 0 k ∑ j = 0 k c i j x i x j t 1 − α 2 ( n − k − 1 ) y ^ 1 = y ^ + σ ^ e 1 + ∑ i = 0 k ∑ j = 0 k c i j x i x j t 1 − α 2 ( n − k − 1 ) \begin{cases} \hat{y}_1=\hat{y}-\hat{\sigma}_e\sqrt{1+\sum_{i=0}^{k}{\sum_{j=0}^{k}{c_{ij}x_ix_jt_{1-\frac{\alpha}{2}}(n-k-1)}}}\\ \hat{y}_1=\hat{y}+\hat{\sigma}_e\sqrt{1+\sum_{i=0}^{k}{\sum_{j=0}^{k}{c_{ij}x_ix_jt_{1-\frac{\alpha}{2}}(n-k-1)}}} \end{cases} y^1=y^σ^e1+i=0kj=0kcijxixjt12α(nk1) y^1=y^+σ^e1+i=0kj=0kcijxixjt12α(nk1)
C = L − 1 = ( c i j ) , L = X ′ X C=L^{-1}=(c_{ij}),L=X'X C=L1=(cij)L=XX

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值