机器学习

学习报告 第三周

线性模型

3.1 基本形式

一般向量形式:
在这里插入图片描述
优点:

  1. 形式简单、易于建模、蕴含机器学习的重要思想
  2. 非线性模型可由线性模型通过引入层级结构和高维映射得到
  3. 具有很好的解释性(哪一个参数更为重要)

3.2 线性回归

先考虑简单的情况,即每个样本只有一个属性,一元线性回归。

给定数据集:
在这里插入图片描述
线性回归则试图学得一个线性模型尽可能准确地将预测f(xi)去 逼近yi,即:
在这里插入图片描述
显然,既然是逼近,那么误差是存在的。一个良好的线性回归模型的关键就是如何将f(xi)与yi之间的误差最小化!而该模型是由w以及b确定的,那么问题回到w,b的确定:

回归任务中最常用的性能度量是均方误差,也称平方损失,因此上述w,b可以通过均方误差的最小化来计算得出,均方误差:
在这里插入图片描述
最小化均方误差的模型求解方法即为最小二乘法:
在这里插入图片描述
上式中样本xi由多个属性描述,称为多元线性回归

广义线性模型:

g() 为单调可微函数,当对应输出不为线性变化时引入 g()。比如输出在指数尺度上变化时,引入对数,则输出就可近似为线性。

3.3 对数几率回归

回归学习可用线性模型进行,但若要做分类任务
寻找一个单调可谓的函数将分类任务的真实标记 y与线性回归函数的预测值联系起来,拿2分类任务为例,简单的方法是选择单位阶阶跃函数,但是该函数并不连续,因此选择类似的对数几率函数
在这里插入图片描述
对数几率函数是任意阶可导的凸函数

由对数几率函数确定ω 和 b:
对数几率函数可变化为
在这里插入图片描述
令y=p(y=1∣x),则1 - y = p( y = 0 | x)
所以
在这里插入图片描述
然后通过最大似然法估计参数,根据给定模型,对数回归模型最大化‘对数似然’
在这里插入图片描述
即使得m个样本的预测为真是标记的概率最大
为了表示方便,可以将概率 p表示为
在这里插入图片描述

3.4 线性判别分析(LDA)

思想
给定训练样集,设法将样例投影到一条直线上,使得同类样例尽量接近,异样样例尽量远离
在这里插入图片描述
使同类的投影尽可能近即使协方差矩阵的投影尽可能的小,使不同类的投影尽可能的远即使均值的投影距离尽可能大

◆同时考虑二者,则可得到欲最大化的目标(“类内散度矩阵”与“类间散度矩阵”的“广义瑞丽商”)

3.5 多分类学习

多分类问题的基本思路是拆解法,将多分类任务柴蔚若干个二分类任务
一对一(OvO): 将N个类别两两配对,形成 N(N−1)/2 个分类任务,最终预测结果根据分类结果中数目最多的类别判断
一对多(OvR): 将一个类别视为正,其余所有均视为负。若只有一个类别为真,那么该类为预测结果;若多个类别都判断为真,根据每个判断结果的置信度预测最终结果。
在这里插入图片描述
多对多(MvM):
对 N 个数据集进行 M 次分类,每次将一部分作为正数据集,一部分作为负数据集,于是可以训练 M 个分类器。最常用的为“纠错输出码”
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值