机器学习03 线性模型

前言:本章先介绍如何使用线性模型(linear model)处理回归任务,再考虑经由映射函数处理二分类任务的对数几率回归(logistic regression, 或 logit regression),和利用样本点投影距离处理二分类任务的线性判别分析(Linear Discriminant Analysis, LDA),最后介绍多分类学习,并指出类别不平衡问题及再缩放(rescaling)的应对策略。


知识点

输入属性若存在关系(order),可通过连续化转为连续值;不存在序关系,则转化为n维向量,若将其连续化,则对距离计算等造成误导(9.3节)

线性判别分析(Linear Discriminant Analysis, LDA)的思想:异样本的投影尽可能远;同样本的投影尽可能近。

多分类学习处理思路:拆解法,将多分类任务拆为若干个二分类任务求解。具体策略有“一对一”(One vs. One, OVO)、“一对其余”(One vs. Rest, OvR)和“多对多”(Many vs. Many, MvM)。

拆解策略特点
OvO将N个类别任意两两配对,产生 N(N-1)/2 个二分类任务。
OvR产生 N 个分类任务。
训练每个训练器使用全部训练样例
MvM将若干个类作为正类,若干其他类作为反类。正反例构造需要使用纠错输出码(Error Correcting Output Codes. ECOC)

类别不平衡问题:分类任务中不同类别的训练样例数目不相当(如,正例有998个,而反例有2个)。

存在于不同类别的训练样例数不同的原始问题中,也存在于处理多分类时拆解分类任务后。

处理方法:再缩放(rescaling)–对训练集中的反例进行欠采样(undersampling);对训练集中的正例进行过采样(oversampling);阈值移动(threshold-moving)。

问题

E(w,b)E_{(w, b)}E(w,b)为什么是关于 wwwbbb 的凸函数?为什么关于 wwwbbb 的导数均为零时,得到 wwwbbb 的最优解?

E(w,b)E_{(w, b)}E(w,b)若为一般的二元函数,可由定义判定凹凸性;若为可微函数,可由两充要条件判断。

充要条件1(一阶条件):设 RcR_cRcEnE_nEn 上的开凸集,f(X)f(X)f(X)RcR_cRc 上可微,则 f(X)f(X)f(X)RcR_cRc 上的凸函数的充要条件是:对任意不同两点 X(1)∈RcX^{(1)} \in R_cX(1)RcX(2)∈RcX^{(2)} \in R_cX(2)Rc,恒有 f(X(2))≥f(X(1))+∇f(X(1))T(X(2)=X(1))f(X^{(2)}) \geq f(X^{(1)})+\nabla f\left(X^{(1)} \right) ^{T}(X^{(2)}=X^{(1)})f(X(2))f(X(1))+f(X(1))T(X(2)=X(1))

充要条件2(二阶条件):设 RcR_cRcEnE_nEn 上的开凸集,f(X)f(X)f(X)RcR_cRc 上二阶可微,则 f(X)f(X)f(X)RcR_cRc 上的凸函数(严格凸函数)的充要条件是:对所有 X∈RcX \in R_cXRc,其黑塞矩阵半正定(正定)。

凸函数的任意极大(小)值为其最大(小)值,且凸函数的驻点就是全局最优点。


待办:

P56:为什么当 XTXX^TXXTX 不是满秩矩阵,可以解出多个 w^\hat{w}w^

P59:书写3.25中的似然项,即3.26

P61:公式推导

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值