线性模型
希望学得一个通过各属性的线性组合来进行预测的函数。
主要有右边三种模型:线性回归、对率回归、线性判别分析。
机器学习三要素(是未来学习求解各种模型时的流程指导):https://i.postimg.cc/MpWHFbQY/image.png
线性回归(linear regression)
主要解决回归问题(连续性);
要找出一条线,使所有样本点到此的欧氏距离之和最小;
使用最小二乘法或者极大似然法都可求出参数(w,b);
最小二乘法
直接从欧氏距离的角度推出均方误差最小时的表达式。
https://i.postimg.cc/7hSsrF3d/1.png
极大似然法
设求出的模型与真实模型之间有误差,假设各样本带入时得到的误差满足正态分布,通过极大似然法,可得出与最小二乘法一样的结果。(详情见https://www.bilibili.com/video/BV1Mh411e7VU?p=2&vd_source=8ee373fcebc9193d11eab98524b0e6b8 第24min)
多元线性回归
前面所述为属性只有一个时的简单情况,而真实情况往往有多重属性,用矩阵来表示。
对该式进行求解时要用到矩阵论知识,对XT*X是否满秩可有唯一解或者多个解(此时的选择由归纳偏好决定,引入正则化项)。
当满秩时说明Ew是关于w的凸函数,可用最优化理论。
对数几率回归(logit regression)
使用一个联系函数(连续且光滑)将某非线性函数转化为线性回归问题,通过这种方法得到的就是“广义线性模型”;
对数几率回归就是一种利用对数几率函数将二分类任务转化为回归问题的模型。
优点:(1)直接对分类进行建模,避免假设分布带来的干扰;(2)不仅可以预测类别,还可以得到近似概率预测;(3)求解的目标函数也是凸函数,便于求最优解。
对数几率函数
将实数域内的z通过函数关系转化为在0,1之间取值,y的值即为x为正例的可能性,在二分类任务中,以这个可能性来表征样本标记为1或0,相应的可以写出损失函数。
损失函数
见书中3.26,相当于01分布的期望;
对该函数进行似然化或者利用信息论中的交叉熵,可转化为求下式的最小值,同时又因为这是一个数据集,以矩阵的形式写出后,通过求海塞矩阵可判断其为凸函数,那么就可以利用凸优化算法进行最终的参数求解。
其中的B是(w,b)函数,所以求解w和b相当于求出B;
这里书中用到的是牛顿法,相关的雅各比矩阵,海塞矩阵,迭代法等参考如下:https://blog.youkuaiyun.com/Mr_tianyanxiaobai/article/details/107245128
线性判别分析(LDA)
思想是:给定训练样例集,将样例都投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例点的投影点尽可能远离,对新样本进行分类时,将其投影到同样的直线上,根据投影点位置确定属于哪个类别。
使同类间的协方差尽量小,异类间的协方差尽量大,可得要最大化的目标函数是:
- 类内散度矩阵(相当于两类内部各点到样本中心点方差和)
- 类间散度矩阵(两类样本中心点间距离)
通过Sw和Sb,可将最大化目标转化为广义瑞利商,并且最终可转化为求极值:
关于广义瑞利商(包括对LDA的详解):https://blog.youkuaiyun.com/qq_44766883/article/details/109893062?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522166582272516782428686452%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=166582272516782428686452&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2allsobaiduend~default-2-109893062-null-null.142v56control,201v3control&utm_term=%E4%BA%8C%E7%B1%BBLDA%E5%8E%9F%E7%90%86&spm=1018.2226.3001.4187
求解时利用拉格朗日乘子法,结果如下:
挖个坑:对Sw的奇异值分解(SVD),后续再了解下
- 解得:
多分类学习
实质是转化为二分类问题:先将问题拆分,拆出的每个二分类任务训练一个分类器,新样本进行测试时,对所有分类器的结果进行集成得到分类结果。
OvO(一对一)
OvR(一对其余)
MvM(多对多)
对正反类的构造必须特殊设计,应用纠错输出码(ECOC):
通过编码矩阵来划分,每个分类器得出的结果组成编码,与训练集中各类编码进行比对,然后计算海明距离和欧氏距离,距离最小的为预测结果。
类别不平衡问题
指分类任务中不同类别的训练样例数目差别很大的情况。
以正例数目较少为例:
对反例进行“欠采样”
对正例进行“过采样”
进行再缩放
在线性分类器中,分类实际是对预测的y值和阈值(threshold)进行比较,当正负样本数相同时,阈值为0.5,观测几率是1,将y/(1-y)与之对比。
再缩放则是将观测几率改为m+/m-,再进行决策。
- 阈值移动