《机器学习》--第三章：线性模型

本文链接：https://blog.youkuaiyun.com/weixin_50307148/article/details/127338282

线性模型

希望学得一个通过各属性的线性组合来进行预测的函数。
主要有右边三种模型：线性回归、对率回归、线性判别分析。

机器学习三要素（是未来学习求解各种模型时的流程指导）：https://i.postimg.cc/MpWHFbQY/image.png

线性回归（linear regression)

主要解决回归问题（连续性）；
要找出一条线，使所有样本点到此的欧氏距离之和最小；
使用最小二乘法或者极大似然法都可求出参数（w，b）；

最小二乘法

直接从欧氏距离的角度推出均方误差最小时的表达式。
https://i.postimg.cc/7hSsrF3d/1.png

极大似然法

设求出的模型与真实模型之间有误差，假设各样本带入时得到的误差满足正态分布，通过极大似然法，可得出与最小二乘法一样的结果。（详情见https://www.bilibili.com/video/BV1Mh411e7VU?p=2&vd_source=8ee373fcebc9193d11eab98524b0e6b8 第24min）

多元线性回归

前面所述为属性只有一个时的简单情况，而真实情况往往有多重属性，用矩阵来表示。

对该式进行求解时要用到矩阵论知识，对XT*X是否满秩可有唯一解或者多个解（此时的选择由归纳偏好决定，引入正则化项）。
当满秩时说明Ew是关于w的凸函数，可用最优化理论。

对数几率回归(logit regression)

使用一个联系函数（连续且光滑）将某非线性函数转化为线性回归问题，通过这种方法得到的就是“广义线性模型”；
对数几率回归就是一种利用对数几率函数将二分类任务转化为回归问题的模型。
优点：（1）直接对分类进行建模，避免假设分布带来的干扰；（2）不仅可以预测类别，还可以得到近似概率预测；（3）求解的目标函数也是凸函数，便于求最优解。

对数几率函数

将实数域内的z通过函数关系转化为在0,1之间取值，y的值即为x为正例的可能性，在二分类任务中，以这个可能性来表征样本标记为1或0，相应的可以写出损失函数。

损失函数

见书中3.26，相当于01分布的期望；
对该函数进行似然化或者利用信息论中的交叉熵，可转化为求下式的最小值，同时又因为这是一个数据集，以矩阵的形式写出后，通过求海塞矩阵可判断其为凸函数，那么就可以利用凸优化算法进行最终的参数求解。

其中的B是（w,b)函数，所以求解w和b相当于求出B；
这里书中用到的是牛顿法，相关的雅各比矩阵，海塞矩阵，迭代法等参考如下：https://blog.youkuaiyun.com/Mr_tianyanxiaobai/article/details/107245128

线性判别分析（LDA）

思想是：给定训练样例集，将样例都投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例点的投影点尽可能远离，对新样本进行分类时，将其投影到同样的直线上，根据投影点位置确定属于哪个类别。

使同类间的协方差尽量小，异类间的协方差尽量大，可得要最大化的目标函数是：

类内散度矩阵（相当于两类内部各点到样本中心点方差和）
类间散度矩阵（两类样本中心点间距离）

通过Sw和Sb，可将最大化目标转化为广义瑞利商，并且最终可转化为求极值：

关于广义瑞利商（包括对LDA的详解）：https://blog.youkuaiyun.com/qq_44766883/article/details/109893062?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522166582272516782428686452%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=166582272516782428686452&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2_allsobaiduend~default-2-109893062-null-null.142^v56control,201^v3control&utm_term=%E4%BA%8C%E7%B1%BBLDA%E5%8E%9F%E7%90%86&spm=1018.2226.3001.4187
求解时利用拉格朗日乘子法，结果如下：
挖个坑：对Sw的奇异值分解（SVD），后续再了解下