【西瓜书学习笔记】第3章：线性模型

最新推荐文章于 2025-01-22 13:56:36 发布

瞄代码的喵

最新推荐文章于 2025-01-22 13:56:36 发布

阅读量456

点赞数

CC 4.0 BY-SA版权

分类专栏：学习笔记 ML机器学习

本文链接：https://blog.youkuaiyun.com/weixin_38855195/article/details/83380960

学习笔记同时被 2 个专栏收录

17 篇文章

订阅专栏

ML机器学习

3 篇文章

订阅专栏

本文深入探讨了机器学习中的关键优化算法，包括argmax的概念、闭式解的应用、最小二乘法原理及其在非满秩矩阵情况下的挑战。通过详细的数学推导，解释了如何求解参数w和b，以及在类别不平衡问题下的决策调整策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

课程前言：

arg max的参数是函数最大化的某个函数的域的点，与全局最大值相比参数函数的最大输出，arg max指的是函数输出尽可能大的输入或参数

闭式解：

给出任意自变量，就可以求出因变量

最小二乘法：

通过最小化误差的平方和寻找数据的最佳函数匹配

$\sum_{j=1}^{n}x_ij \beta_j=y_i,(i=1,2,3,...,m)$

$x \beta =y$

$S(\beta)=||x\beta-y||^{2}=(x\beta-y)^{T}(x\beta-y)$

对 $S(\beta)$ 微分得， $x^{T}x\hat{\beta}=x^{T}y$ ,

如果 $x^{T}x$ 非奇异，则 $\beta$ 有唯一解。

$\hat \beta=(x^{T}x)^{-1}x^{T}y$

式(3.7)

$\left( w^{*},b^{*}\right) = argmin \sum_{i=1}^{m}\left ( f(x_{i})-y_{i} \right )^{2}=argmin \sum_{i=1}^{m}\left ( y_{i}-wx_{i}-b \right )^{2}$

分别对w,b求偏导，得：

$\frac{\partial E(x,b)}{\partial w}=2(w\sum_{i=1}^{m}x_{i}^{2}-\sum_{i=1}^{m}(y_{i}-b)x_{i})$ ,

$\frac{\partial E(w,b)}{\partial b}=2(mb-\sum_{i=1}^{m}(y_{i}-wx_{i}))$

令偏导数为0，得：

$w\sum_{i=1}^{m}x_{i}^{2}=\sum_{i=1}^{m}(y_{i}-b)x_{i}$ ，（1）

$mb=\sum_{i=1}^{m}(y_{i}-wx_{i})$ ，（2）

把（2）带入（1）得：

$w\sum_{i=1}^{m}x_{i}^{2}=\sum_{i=1}^{m}(y_{i}- \frac{1}{m} \sum_{j=1}^{m}(y_j-wx_j))x_{i}$

$=\sum_{i=1}^{m}y_{i}x_{i}- \frac{1}{m}\sum_{i=1}^{m} \sum_{j=1}^{m}(y_j-wx_j)x_{i}$

$=\sum_{i=1}^{m}y_{i}x_{i}- \frac{1}{m}\sum_{i=1}^{m} x_{i} \sum_{j=1}^{m}(y_j-wx_j)$

$=\sum_{i=1}^{m}y_{i}x_{i}- \bar{x} \sum_{j=1}^{m}(y_j-wx_j)$

$=\sum_{i=1}^{m}y_{i}x_{i}- \bar{x} \sum_{j=1}^{m}y_j+ \bar{x}\sum_{j=1}^{m}wx_j$

$=\sum_{i=1}^{m}y_{i}(x_{i}- \bar{x} )+w \cdot ( \frac{1}{m}\sum_{i=1}^{m}x_i)\cdot \sum_{i=1}^{m}x_i$

$=\sum_{i=1}^{m}y_{i}(x_{i}- \bar{x} )+w \cdot ( \frac{1}{m}\sum_{i=1}^{m}x_i)^{2}$

故 $w=\frac{=\sum_{i=1}^{m}y_{i}(x_{i}- \bar{x} )}{\sum_{i=1}^{m}x_i^{2}-\frac{1}{m}(\sum_{i=1}{m}x_i)^2}$

式(3.12)

$f(x)=x_i^Tw$

由最小二乘法易得，若 $x^{T}x$ 非奇异，w有唯一解。

$w=(x^{T}x)^{-1}x^Ty,f(x)=x_i^T(x^{T}x)^{-1}x^T y$

然而现实任务中， $x^{T}x$ 往往不是满秩矩阵

式（3.27）

$p(y_i|x_i;w,b)=\left\{\begin{matrix} P_1 \left( \hat x_i; \beta \right),y_i=1 & & \\ P_0 \left( \hat x_i; \beta \right),y_i=0 \end{matrix}\right.$

合并可得式（3.26）

$\imath (\beta)=\sum_{i=1}^{m} lnP(y_i|x_i;w,b)=\sum_{i=1}^{m}ln(y_iP_1 \left( \hat x_i; \beta \right)+(1-y_i)P_0 \left( \hat x_i; \beta \right) )$

$=\sum_{i=1}^{m}ln(y_i \frac{e^{w^{T}x_{i}+b}}{1+e^{w^{T}x_i+b}}+(1-y_i)\frac{1}{1+e^{w^{T}x_i+b}})$

$=\sum_{i=1}^{m}(ln(y_i e^{\beta^T \hat x_i}+(1-y_i))-ln(1+e^{\beta^T \hat x_i})$

当 $y_i = 0$ 时，

$\imath (\beta)=\sum_{i=1}^{m}-ln(1+e^{\beta^T \hat x_i})$

当 $y_i=1$ 时，

$\imath (\beta)==\sum_{i=1}^{m}(y_i e^{\beta^T \hat x_i}-ln(1+e^{\beta^T \hat x_i}))$

合并得：

$\imath (\beta)==\sum_{i=1}^{m}(y_i e^{\beta^T \hat x_i}-ln(1+e^{\beta^T \hat x_i}))$

式（3.32）

将数据投影到直线上，则两类样本的中心在直线上的投影分别为 $w^{T}u_0,w^{T}u_1$ ，其中 $u_0$ 为样本1的均值， $u_1$ 为样本2的均值。

$\sum_{x \in D_i}( w^{T}x-w^{T}u_i)^2=\sum_{x \in D_i}( w^{T}(x-u_i))^2=\sum_{x \in D_i}w^{T}(x-u_i)^{T}(x-u_i)w$

$=w^{T}\sum_{x \in D_i}[(x-u_i)^{T}(x-u_i)]w$

其中 $(x-u_i)^{T}(x-u_i)$ 为 $\sum_{i}$ 投影前的协方差矩阵，故样本协方差为 $w^T\sum_i w$

式(3.35)

$J=\frac{w^T S_b w}{w^T S_w w}=\frac{w^T(u_0-u_1)(u_0-u_1)^Tw}{w^T(\sum_{0}+\sum_{1})w}$

$=\frac{w^T(u_0-u_1)(u_0-u_1)^T w}{w^T (\sum_{x \in x_0}(x-u_0)(x-u_0)^T+\sum_{x \in x_1}(x-u_1)(x-u_1)^T)w}$

式(3.37)

$\underset{w}{min}-w^{T}S_{b}w,s.t. w^{T}S_{w}w=1$ ，由拉格朗日公式易得，

$w^{T}S_{b}w+\lambda \left ( 1-w^{T}S_{w}w \right ) =0$ ,

$ww^{T}S_{b}w=w\lambda \left ( w^{T}S_{w}w-1 \right )$ ，

$ww^{T}$ 为常数，若w为一个解，则aw 也为一个常数，忽略常数项，得，

$S_{b}w=\lambda S_{w}w$

$S_{b}w=\lambda (u_{0}-u_{1})(u_{0}-u_{1})^{T}w$ ,由于 $(u_{0}-u_{1})^{T}w$ 为标量，故， $S_{b}w=\lambda (u_{0}-u_{1})$ ，带入(3.37)得， $w=S_{w}^{-1}(u_{0}-u_{1})$

式（3.48）

由于决策是基于 $\frac{y}{1-y}>1$ ，由于存在类别不平衡问题，故我们只要分类器的预测几率高于观测几率就判定为正例，即 $\frac{y}{1-y}>\frac{m^{+}}{m^{-}}$ ,于是可得， $\frac{y}{1-y} * \frac{m^{-}}{m^{+}}>\frac{m^{+}}{m^{-}}* \frac{m^{-}}{m^{+}}=1$ ,因此 $\frac{y'}{1-y'}=\frac{y}{1-y} * \frac{m^{-}}{m^{+}}$