吃瓜笔记二【Datawhale Task02】

莜莫oO

于 2021-08-24 01:22:33 发布

阅读量276

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Mod_13/article/details/119812951

机器学习专栏收录该内容

2 篇文章

订阅专栏

本文介绍了线性模型的基本形式，包括线性回归、对数几率回归和线性判别分析。线性回归用于准确预测实值输出，对数几率回归适用于分类任务，而线性判别分析则通过投影点的距离进行类别判断。多分类学习通过拆解法如一对一、一对多和多对多策略解决。类别不平衡问题被提出，探讨了处理不平衡数据的方法，如阈值调整、过采样和欠采样。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第三章线性模型

3.1 基本形式

线性模型 (linear model)试图学得一个通过属性的线性组合来进行预测的函数

3.2 线性回归

"线性回归" (linear regression)试图学得一个线性模型以尽可能准确地预测实值输出标记

要确定 w 和 b，需要衡量 f(x) 和 y 之间的差别

例如尝试让均方误差最小化

3.3 对数几率回归

分类任务，只需找一个单调可做函数将分类任务的真实标记 υ 与线性回归模型的预测值联系起来

对于二分类任务，我们只需将实值转换为 0，1 输出，最理想的是"单位阶跃函数" (unit-step function)

3.4 线性判别分析

线性判别分析 (Linear Discriminant Analysis，简称 LDA)是一种经典的线性学习方法

LDA 的，思想非常朴素: 给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别。

3.5 多分类学习

一些二分类学习方法可以直接推广到多分类，但更多情况下，可以基于一些基本策略，利用二分类学习器来解决多分类的问题

多分类学习的基本思路是"拆解法"即将多分类任务拆为若干个二分类任务求解.

经典的拆分策略有三种：

①“一对一”（One vs. One，简称 OvO）

②“一对多”（One vs. Rest，简称 OvR）

③“多对多”（Many vs. Many，简称 MvM）

MvM 是每次将若干个类作为正类，若干个其他类作为反类

MvM 的正、反类构造必须有特殊的设计，不能随意选取.

一种最常用的MvM技术“纠错输出码”（Error Correcting Output Codes，简称 ECOC）

第一步：编码，对 N 个类别做 M 次划分，每次划分将一部分类别划为正类，一部分划为反类，从而形成一个二分类训练集;这样一共产生 M 个训练集，可训练出 M 个分类器.

第二步：解码，M 个分类器分别对测试样本进行预测，这些预测标记组成一个编码. 将这个预测编码与每个类别各自的编码进行比较，返回其中距离最小的类别作为最终预测结果.

类别划分通过"编码矩阵" (coding matrix)指定.编码矩阵有多种形式，
常见的主要有二元码 [Dietterich and B此iri ，1995] 和三元码 [Allwein et al.,2000].

在解码阶段，各分类器的预测结果联合起来形成了测试示例的编码，该编码与各类所对应的编码
进行比较，将距离最小的编码所对应的类别作为预测结果.

3.6 类别不平衡问题

前面介绍的分类学习方法都有→个共同的基本假设，即不同类别的训练样例数目相当.如果不同类别的训练样例数目稍有差别，通常影响不大，但若差别很大，则会对学习过程造成困扰.

类别不平衡 (class-imbalance)就是指分类任务中不同类别的训练样例数目差别很大的情况.

类别不平衡性处理的基本方法：

基于阈值比较

进行分类时，事实上是在用预测出的 υ 值与一个阔值进行比较，例如通常在y > 0.5 时判别为正例，否则为反例。y 实际上表达了正例的可能性，几率 y/(1-y) 则反映正例可能性与反例可能性之比值，阈值设置为0.5恰表明分类器认为真实正、反例可能性相同，即分类器决策规则为

与观测几率计较

m+为正例数目，m-为反例数目，则观测几率为 m+/m-

因为我们通常假设训练集是真实样本总体的无偏采样，因此观测几率就代表了真实几率。于是，只要分类器的预测几率高于观测几率就应判定为正例，即

"再缩放" (rescaling).

三类做法：

① 欠采样（undersampling）：去除一些反例，使得正，反例数目接近

② 过采样（oversampling）：增加一些正例使得正，反例数目接近

③ 阈值移动（threshold-moving）：直接基于原始训练集进行学习，但在用
训练好的分类器进行预测时，将下式嵌入到其决策过程中

参考：

《机器学习》周志华著

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。