学习报告 第三周
线性模型
3.1 基本形式
一般向量形式:
优点:
- 形式简单、易于建模、蕴含机器学习的重要思想
- 非线性模型可由线性模型通过引入层级结构和高维映射得到
- 具有很好的解释性(哪一个参数更为重要)
3.2 线性回归
先考虑简单的情况,即每个样本只有一个属性,一元线性回归。
给定数据集:
线性回归则试图学得一个线性模型尽可能准确地将预测f(xi)去 逼近yi,即:
显然,既然是逼近,那么误差是存在的。一个良好的线性回归模型的关键就是如何将f(xi)与yi之间的误差最小化!而该模型是由w以及b确定的,那么问题回到w,b的确定:
回归任务中最常用的性能度量是均方误差,也称平方损失,因此上述w,b可以通过均方误差的最小化来计算得出,均方误差:
最小化均方误差的模型求解方法即为最小二乘法:
上式中样本xi由多个属性描述,称为多元线性回归
广义线性模型:
g() 为单调可微函数,当对应输出不为线性变化时引入 g()。比如输出在指数尺度上变化时,引入对数,则输出就可近似为线性。
3.3 对数几率回归
回归学习可用线性模型进行,但若要做分类任务
寻找一个单调可谓的函数将分类任务的真实标记 y与线性回归函数的预测值联系起来,拿2分类任务为例,简单的方法是选择单位阶阶跃函数,但是该函数并不连续,因此选择类似的对数几率函数
对数几率函数是任意阶可导的凸函数
由对数几率函数确定ω 和 b:
对数几率函数可变化为
令y=p(y=1∣x),则1 - y = p( y = 0 | x)
所以
然后通过最大似然法估计参数,根据给定模型,对数回归模型最大化‘对数似然’
即使得m个样本的预测为真是标记的概率最大
为了表示方便,可以将概率 p表示为
3.4 线性判别分析(LDA)
思想
给定训练样集,设法将样例投影到一条直线上,使得同类样例尽量接近,异样样例尽量远离
使同类的投影尽可能近即使协方差矩阵的投影尽可能的小,使不同类的投影尽可能的远即使均值的投影距离尽可能大
◆同时考虑二者,则可得到欲最大化的目标(“类内散度矩阵”与“类间散度矩阵”的“广义瑞丽商”)
3.5 多分类学习
多分类问题的基本思路是拆解法,将多分类任务柴蔚若干个二分类任务
一对一(OvO): 将N个类别两两配对,形成 N(N−1)/2 个分类任务,最终预测结果根据分类结果中数目最多的类别判断
一对多(OvR): 将一个类别视为正,其余所有均视为负。若只有一个类别为真,那么该类为预测结果;若多个类别都判断为真,根据每个判断结果的置信度预测最终结果。
多对多(MvM):
对 N 个数据集进行 M 次分类,每次将一部分作为正数据集,一部分作为负数据集,于是可以训练 M 个分类器。最常用的为“纠错输出码”