从最大似然估计看线性回归

线性回归

我们从用给定的数据集(x,y),学习了一组参数θy(i)=θTx(i)+ϵ(i)y^{(i)}=θ^{T}x^{(i)}+ϵ^{(i)}y(i)=θTx(i)+ϵ(i),假设ϵi服从期望为0的正态分布ϵi~N(0,σ^2);
度量线性回归模型性能用均方误差MSE ,代价函数为:J(θ)=1/(2∗m)∑i=1m(y(i)′−yi)2J(θ)=1/(2*m)\sum_{i=1}^m(y^{(i)'}-y^i) ^{2}J(θ)=1/(2m)i=1m(y(i)yi)2

最小化代价函数得到最终的参数

最大似然估计

已知y(i)=θTx(i)+ϵ(i)y^{(i)}=θ^{T}x^{(i)}+ϵ^{(i)}y(i)=θTx(i)+ϵ(i) 那么ϵ(i)=y(i)−θTx(i)ϵ^{(i)}=y^{(i)}-θ^{T}x^{(i)}ϵ(i)=y(i)θTx(i)
似然函数L(θ)=∏i=1mP(y(i)∣x(i),θ)=∏i=1mP(ϵ(i)=y(i)−θTx(i))=∏i=1mf(ϵ(i))L(\theta)=\prod_{i=1}^{m}P(y^{(i)}|x^{(i)},\theta)=\prod_{i=1}^{m}P(ϵ^{(i)}=y^{(i)}-θ^{T}x^{(i)})=\prod_{i=1}^{m}f(\epsilon ^{(i)})L(θ)=i=1mP(y(i)x(i),θ)=i=1mP(ϵ(i)=y(i)θTx(i))=i=1mf(ϵ(i))
因为ε是连续型随机变量,用f标准正态概率密度代入L(θ)=∏i=1m1σ2πe−(y(i)−θTx(i))22σ2L(\theta)=\prod_{i=1}^{m}\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(y^{(i)}-θ^{T}x^{(i)})^{2}}{2\sigma ^{2}}}L(θ)=i=1mσ2π1e2σ2(y(i)θTx(i))2
最大化似然函数,取对数ln⁡L(θ)=ln⁡∏i=1m1σ2πe−(y(i)−θTx(i))22σ2=ln⁡1σ2π−∑i=1m(y(i)−θTx(i))22σ2\ln L(\theta)=\ln \prod_{i=1}^{m}\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(y^{(i)}-θ^{T}x^{(i)})^{2}}{2\sigma ^{2}}}=\ln \frac{1}{\sigma \sqrt{2\pi}}-\sum_{i=1}^{m} \frac{(y^{(i)}-θ^{T}x^{(i)})^{2}}{2\sigma ^{2}}lnL(θ)=lni=1mσ2π1e2σ2(y(i)θTx(i))2=lnσ2π1i=1m2σ2(y(i)θTx(i))2
因此要最小化∑i=1m(y(i)−θTx(i))2\sum_{i=1}^{m} {(y^{(i)}-θ^{T}x^{(i)})^{2}}i=1m(y(i)θTx(i))2 和线性回归最小化的目标相同,殊途同归,可以将线性回归看成最大似然估计的特例?

### 使用矩阵方法通过最大似然估计解决线性回归线性回归中,假设目标变量 \( y \) 和输入特征向量 \( X \) 之间的关系可以表示为: \[ y = X\beta + \epsilon \] 其中 \( \epsilon \sim N(0, \sigma^2I) \),即误差项服从均值为零、协方差矩阵为 \( \sigma^2 I \) 的正态分布。为了简化表达,在这里引入了偏置项并将其视为常数列向量的一部分。 对于给定的数据集 {(\(X_i\),\(y_i\))} ,可以通过最大化样本关于参数 β 下的概率来找到最优解。具体来说就是使下述对数似然函数达到最大值: \[ L(\beta,\sigma)=\sum_{i=1}^{n}\log p(y_i|x_i;\beta ,\sigma )=\sum _{i=1}^{n}-{\frac {\ln({\sqrt {2\pi }})}{2}}-\left({\frac {(y_{i}-{x}_{i}^{T}{\boldsymbol {\beta }})^{2}}{2\sigma ^{2}}}\right)+C \] 由于 σ 是已知或可独立优化的超参,因此只需关注于含有未知系数的部分。去掉不依赖于待估参数的项之后,上述公式转化为最小化残差平方和的形式[^2]: \[ J(\beta)=\sum _{i=1}^{N}(y_{i}-x_{i}^{T}\beta )^{2}=||Y-X\beta ||^{2}_2 \] 这实际上是最小二乘法的目标函数形式。当假定噪声呈高斯分布时,两者等价。此时可通过求导获得闭合解: 设设计矩阵 \( X=[x_1,x_2,...,x_N]^T \in R^{N\times d}, Y=(y_1,y_2,…,y_N)^T ∈R^n \) 则有: \[ \hat{\beta }={\underset {{\boldsymbol {\beta }}}{\operatorname {argmin} }}\|Y-X{\boldsymbol {\beta }}\|_{2}^{2}\\ \nabla_\beta \|Y-Xβ\|^2=-2X^TY+2X^TXβ\\ 令其等于0:\\ X^TXβ=X^Ty \\ 从而得出: \[\hat{{\boldsymbol {\beta}}}=(X^{T}X)^{-1}X^{T}Y\] 此即为利用矩阵运算得到的最大似然估计下的线性回归解析解。 ```python import numpy as np def linear_regression_mle(X, y): """ Perform Linear Regression using Maximum Likelihood Estimation. Parameters: X : array-like of shape (n_samples, n_features) Training data. y : array-like of shape (n_samples,) Target values. Returns: beta_hat : ndarray of shape (n_features,) Estimated coefficients for the linear regression problem. """ # Adding intercept term to design matrix X ones_column = np.ones((len(X), 1)) X_with_intercept = np.hstack([ones_column, X]) # Calculating MLE estimate for parameters Beta Xt_X_inv = np.linalg.inv(np.dot(X_with_intercept.T, X_with_intercept)) beta_hat = np.dot(np.dot(Xt_X_inv, X_with_intercept.T), y) return beta_hat ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值