吃瓜笔记二【Datawhale Task02】

本文介绍了线性模型的基本形式,包括线性回归、对数几率回归和线性判别分析。线性回归用于准确预测实值输出,对数几率回归适用于分类任务,而线性判别分析则通过投影点的距离进行类别判断。多分类学习通过拆解法如一对一、一对多和多对多策略解决。类别不平衡问题被提出,探讨了处理不平衡数据的方法,如阈值调整、过采样和欠采样。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第三章 线性模型

3.1 基本形式

线性模型 (linear model)试图学得一个通过属性的线性组合来进行预测的函数

 

3.2 线性回归

"线性回归" (linear regression)试图学得一个线性模型以尽可能准确地预测实值输出标记

要确定 w 和 b,需要衡量 f(x) 和 y 之间的差别

例如尝试让均方误差最小化

3.3 对数几率回归

分类任务,只需找一个单调可做 函数将分类任务的真实标记 υ 与线性回归模型的预测值联系起来

对于二分类任务,我们只需将实值转换为 0,1 输出,最理想的是"单位阶跃函数" (unit-step function)

3.4 线性判别分析

线性判别分析 (Linear Discriminant Analysis,简称 LDA)是一种经典的线性学习方法

LDA 的,思想非常朴 素: 给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、 异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。

3.5 多分类学习

一些二分类学习方法可以直接推广到多分类,但更多情况下,可以基于一些基本策略,利用二分类学习器来解决多分类的问题

多分类学习的基本思路是"拆解法"即将多分类任务拆为若干个二分类任务求解.

经典的拆分策略有三种:

①“一对一”(One vs. One,简称 OvO)

②“一对多”(One vs. Rest,简称 OvR)

③“多对多”(Many vs. Many,简称 MvM)

MvM 是每次将若干个类作为正类,若干个其他类作为反类

MvM 的正、反类构造必须有特殊的设计,不能随意选取.

一种最常用的MvM技术“纠错输出码”(Error Correcting Output Codes,简称 ECOC)

第一步:编码,对 N 个类别做 M 次划分, 每次划分将一部分类别划为正类,一部分划为反类,从而形成一个二分类训练集;这样一共产生 M 个训练集,可训练出 M 个分类器.

第二步:解码,M 个分类器分别对测试样本进行预测,这些预测标记组成一个编码. 将这个预测编码与每个类别各自的编码进行比较,返回其中距离最小的类别作为最终预测结果.

类别划分通过"编码矩阵" (coding matrix)指定.编码矩阵有多种形式,
常见的主要有二元码 [Dietterich and B此iri ,1995] 和三元码 [Allwein et al.,2000]. 

在解码阶段,各分类器的预测结果联合起来形成了测试示例的编码,该编码与各类所对应的编码
进行比较, 将距离最小的编码所对应的类别作为预测结果.

3.6 类别不平衡问题

前面介绍的分类学习方法都有→个共同的基本假设,即不同类别的训练样例数目相当.如果不同类别的训练样例数目稍有差别,通常影响不大,但若差别很大,则会对学习过程造成困扰.

类别不平衡 (class-imbalance)就是指分类任务中不同类别的训练样例数目差别很大的情况.

类别不平衡性处理的基本方法:

基于阈值比较

进行分类时,事实上是在用预测出的 υ 值与一个阔值进行比较,例如通常在y > 0.5 时判别为正例,否则为反例。y 实际上表达了正例的可能性,几率 y/(1-y) 则反映正例可能性与反例可能性之比值,阈值设置为0.5恰表明分类器认为真实正、反例可能性相同,即分类器决策规则为

与观测几率计较

m+为正例数目,m-为反例数目,则观测几率为 m+/m-

因为我们通常假设训练集是真实样本总体的无偏采样,因此观测几率就代表了真实几率。于是,只要分类器的预测几率高于观测几率就应判定为正例, 即

"再缩放" (rescaling).

三类做法:

① 欠采样(undersampling):去除一些反例,使得正,反例数目接近

② 过采样(oversampling):增加一些正例使得正,反例数目接近

③ 阈值移动(threshold-moving):直接基于原始训练集进行学习,但在用
训练好的分类器进行预测时,将下式嵌入到其决策过程中

 参考:

《机器学习》周志华著

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值