目录
前言
本篇主要总结了机器学习入门知识,内容摘自《机器学习公式详解》配套视频,如有不足,恳请指正,欢迎交流~
第 1 章 线性模型
0. 机器学习三要素
- 模型:根据问题,确定假设空间
- 策略:根据评价标准,确定选取最优模型的策略
- 算法:求解损失函数,确定最优模型
1. 一元线性回归
1.1 最小二乘法估计
最小二乘法:基于均方误差最小化来进行模型求解的方法,试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。
线性回归试图学得
f
(
x
i
)
=
w
x
i
+
b
,使得
f
(
x
i
)
≈
y
i
f(x_{i})=wx_{i}+b,使得f(x_{i})≈y_{i}
f(xi)=wxi+b,使得f(xi)≈yi
要想确定w和b,关键在于衡量f(x)与y之间的差别,可以考虑使均方误差最小化,即
1.2 极大似然估计
极大似然估计在一元线性回归模型的应用
1.3 求解 w 和 b
凸集
注*:此处的凸函数与《高等数学》中的凸函数是相反的概念,类似《高等数学》中的凹函数
[推荐教材:王燕军.《最优化基础理论与方法》]
梯度
Hessian 矩阵
凸函数判定
求解关于 w 的一阶偏导数
求解关于 w 的二阶偏导数
求解关于 w 和 b 的混合偏导数
求解关于 b 的二阶偏导数
证明凸函数
一阶偏导数为 0 的点为最小值点的依据
求解参数 w 和 b
1.4 向量化
2. 多元线性回归
2.1 导出 Ew hat
最小二乘法
2.2 向量化 Ew hat
2.3 求解 w hat
推导思路
求解 Hessian 矩阵
[标量-向量] 矩阵微分公式
[推荐教材:张贤达. 《矩阵分析与应用》]
[推荐手册:https://en.wikipedia.org/wiki/Matrix_calculus]
关于 w hat 求解一阶偏导数
3. 对数几率回归(逻辑回归)
[拓展阅读:https://sm1les.com/2019/01/17/logistic-regression-and-maximum-entropy/]
3.1 极大似然估计
确定概率密度函数
写出似然函数
求解损失函数
3.2 信息论
信息论和信息熵
相对熵
最优分布
单个样本的交叉熵
全体样本的交叉熵
对数几率回归三要素
- 模型:线性模型,输出值的范围是[0, 1],近似阶跃的单调可微函数
- 策略:极大似然估计,信息论
- 算法:梯度下降,牛顿法
4. 二分类线性判别分析
4.1 算法原理
从几何的角度,让全体训练样本经过投影后
- 异类样本的中心尽可能远
- 同类样本的方差尽可能小
4.2 损失函数推导
4.3 拉格朗日乘子法
4.4 求解 w
拉格朗日函数
疑难解答
4.5 广义特征值
4.6 广义瑞利商