【西瓜书学习笔记】第3章:线性模型

本文深入探讨了机器学习中的关键优化算法,包括argmax的概念、闭式解的应用、最小二乘法原理及其在非满秩矩阵情况下的挑战。通过详细的数学推导,解释了如何求解参数w和b,以及在类别不平衡问题下的决策调整策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

课程前言:

arg max的参数是函数最大化的某个函数的域的点,与全局最大值相比参数函数的最大输出,arg max指的是函数输出尽可能大的输入或参数

 

闭式解:

给出任意自变量,就可以求出因变量

 

最小二乘法:

通过最小化误差的平方和寻找数据的最佳函数匹配

\sum_{j=1}^{n}x_ij \beta_j=y_i,(i=1,2,3,...,m)

x \beta =y

S(\beta)=||x\beta-y||^{2}=(x\beta-y)^{T}(x\beta-y)

S(\beta)微分得,x^{T}x\hat{\beta}=x^{T}y,

如果x^{T}x非奇异,则\beta有唯一解。

\hat \beta=(x^{T}x)^{-1}x^{T}y

 

式(3.7)

\left( w^{*},b^{*}\right) = argmin \sum_{i=1}^{m}\left ( f(x_{i})-y_{i} \right )^{2}=argmin \sum_{i=1}^{m}\left ( y_{i}-wx_{i}-b \right )^{2}

分别对w,b求偏导,得:

\frac{\partial E(x,b)}{\partial w}=2(w\sum_{i=1}^{m}x_{i}^{2}-\sum_{i=1}^{m}(y_{i}-b)x_{i}),

\frac{\partial E(w,b)}{\partial b}=2(mb-\sum_{i=1}^{m}(y_{i}-wx_{i}))

令偏导数为0,得:

w\sum_{i=1}^{m}x_{i}^{2}=\sum_{i=1}^{m}(y_{i}-b)x_{i},(1)

mb=\sum_{i=1}^{m}(y_{i}-wx_{i}),(2)

把(2)带入(1)得:

w\sum_{i=1}^{m}x_{i}^{2}=\sum_{i=1}^{m}(y_{i}- \frac{1}{m} \sum_{j=1}^{m}(y_j-wx_j))x_{i}

               =\sum_{i=1}^{m}y_{i}x_{i}- \frac{1}{m}\sum_{i=1}^{m} \sum_{j=1}^{m}(y_j-wx_j)x_{i}

               =\sum_{i=1}^{m}y_{i}x_{i}- \frac{1}{m}\sum_{i=1}^{m} x_{i} \sum_{j=1}^{m}(y_j-wx_j)

               =\sum_{i=1}^{m}y_{i}x_{i}- \bar{x} \sum_{j=1}^{m}(y_j-wx_j)

               =\sum_{i=1}^{m}y_{i}x_{i}- \bar{x} \sum_{j=1}^{m}y_j+ \bar{x}\sum_{j=1}^{m}wx_j

               =\sum_{i=1}^{m}y_{i}(x_{i}- \bar{x} )+w \cdot ( \frac{1}{m}\sum_{i=1}^{m}x_i)\cdot \sum_{i=1}^{m}x_i

               =\sum_{i=1}^{m}y_{i}(x_{i}- \bar{x} )+w \cdot ( \frac{1}{m}\sum_{i=1}^{m}x_i)^{2}

w=\frac{=\sum_{i=1}^{m}y_{i}(x_{i}- \bar{x} )}{\sum_{i=1}^{m}x_i^{2}-\frac{1}{m}(\sum_{i=1}{m}x_i)^2}

 

式(3.12)

f(x)=x_i^Tw

由最小二乘法易得,若x^{T}x非奇异,w有唯一解。

w=(x^{T}x)^{-1}x^Ty,f(x)=x_i^T(x^{T}x)^{-1}x^T y

然而现实任务中,x^{T}x往往不是满秩矩阵

 

式(3.27)

p(y_i|x_i;w,b)=\left\{\begin{matrix} P_1 \left( \hat x_i; \beta \right),y_i=1 & & \\ P_0 \left( \hat x_i; \beta \right),y_i=0 \end{matrix}\right.

合并可得式(3.26)

\imath (\beta)=\sum_{i=1}^{m} lnP(y_i|x_i;w,b)=\sum_{i=1}^{m}ln(y_iP_1 \left( \hat x_i; \beta \right)+(1-y_i)P_0 \left( \hat x_i; \beta \right) )

                                              =\sum_{i=1}^{m}ln(y_i \frac{e^{w^{T}x_{i}+b}}{1+e^{w^{T}x_i+b}}+(1-y_i)\frac{1}{1+e^{w^{T}x_i+b}})

                                              =\sum_{i=1}^{m}(ln(y_i e^{\beta^T \hat x_i}+(1-y_i))-ln(1+e^{\beta^T \hat x_i})

y_i = 0时,

\imath (\beta)=\sum_{i=1}^{m}-ln(1+e^{\beta^T \hat x_i})

y_i=1时,

\imath (\beta)==\sum_{i=1}^{m}(y_i e^{\beta^T \hat x_i}-ln(1+e^{\beta^T \hat x_i}))

合并得:

\imath (\beta)==\sum_{i=1}^{m}(y_i e^{\beta^T \hat x_i}-ln(1+e^{\beta^T \hat x_i}))

 

式(3.32)

将数据投影到直线上,则两类样本的中心在直线上的投影分别为w^{T}u_0,w^{T}u_1,其中u_0为样本1的均值,u_1为样本2的均值。

\sum_{x \in D_i}( w^{T}x-w^{T}u_i)^2=\sum_{x \in D_i}( w^{T}(x-u_i))^2=\sum_{x \in D_i}w^{T}(x-u_i)^{T}(x-u_i)w

                                 =w^{T}\sum_{x \in D_i}[(x-u_i)^{T}(x-u_i)]w

其中(x-u_i)^{T}(x-u_i)\sum_{i}投影前的协方差矩阵,故样本协方差为w^T\sum_i w

 

式(3.35)

J=\frac{w^T S_b w}{w^T S_w w}=\frac{w^T(u_0-u_1)(u_0-u_1)^Tw}{w^T(\sum_{0}+\sum_{1})w}

   =\frac{w^T(u_0-u_1)(u_0-u_1)^T w}{w^T (\sum_{x \in x_0}(x-u_0)(x-u_0)^T+\sum_{x \in x_1}(x-u_1)(x-u_1)^T)w}

 

式(3.37)

\underset{w}{min}-w^{T}S_{b}w,s.t. w^{T}S_{w}w=1,由拉格朗日公式易得,

w^{T}S_{b}w+\lambda \left ( 1-w^{T}S_{w}w \right ) =0,

ww^{T}S_{b}w=w\lambda \left ( w^{T}S_{w}w-1 \right )

ww^{T}为常数,若w为一个解,则aw 也为一个常数,忽略常数项,得,

S_{b}w=\lambda S_{w}w

S_{b}w=\lambda (u_{0}-u_{1})(u_{0}-u_{1})^{T}w,由于(u_{0}-u_{1})^{T}w为标量,故,S_{b}w=\lambda (u_{0}-u_{1}),带入(3.37)得,w=S_{w}^{-1}(u_{0}-u_{1})

式(3.48)

由于决策是基于\frac{y}{1-y}>1,由于存在类别不平衡问题,故我们只要分类器的预测几率高于观测几率就判定为正例,即\frac{y}{1-y}>\frac{m^{+}}{m^{-}},于是可得,\frac{y}{1-y} * \frac{m^{-}}{m^{+}}>\frac{m^{+}}{m^{-}}* \frac{m^{-}}{m^{+}}=1,因此\frac{y'}{1-y'}=\frac{y}{1-y} * \frac{m^{-}}{m^{+}}

 

公式太多,码字太麻烦了→ →,直接上图吧。

字很丑,,,勉强看吧。

3.2

3.3
标题

3.4

3.5

3.6 3.7

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值