3.1线性回归
这一部分比较基础,用最小二乘法进行系数估计;
- 广义线性模型
3.2Logistic Regression
- 思想:
- the logistic function("Sigmoid 函数"):
- the log-odds or logit:
- 对数几率模型:
- 估计系数:
但更一般的最大似然方法是首选的,因为它具有更好的统计特性;最大似然是一种非常通用的方法,用于拟合我们在本书中研究的许多非线性模型。
- 似然函数及求解方法——凸优化问题
梯度下降法(gradient descent)是一种常用的一阶(first-order)优化方法,是求解无约束优化问题最简单、最经典的方法之一.
当目标函数f(x) 二阶连续可微时,可将式(B.16)替换为更精确的二阶泰勒展式,这样就得到了牛顿法(Newton's method). 牛顿法是典型的二阶方法,其迭代轮数远小于梯度下降法.但牛顿法使用了二阶导数, 其每轮迭代中涉及到海森矩阵(A.21) 的求逆,计算复杂度相当高,尤其在高维问题中几乎不可行.
若能以较低的计算代价寻找海森矩阵的近似逆矩阵,则可显著降低计算
开销,这就是拟牛顿法。
3.3线性判别分析
- 背景和意义:
前几节中讨论的两类逻辑回归模型具有多类扩展,但在实践中往往不经常使用它们。其中一个原因是我们在下一节讨论的方法,判别分析是一种更加常用的多分类方法;
- 思想:
- 建立模型:
、
- 求解方法:
这一节数学推导用到了:
矩阵求导的知识;高等代数的知识;优化里面拉格朗日乘子法;
- 下面列出一些自己没有看懂的点:
(1)见403页的补充——拉格朗日乘子法
这个方法挺基础且重要的,之后看;
(2)
- 多分类LDA
(在理解了二分类之后,很容易理解)
3.4多分类学习
- 思想:
具体来说,先对问题进行拆分,然后为拆出的每个二分类任务训练一个分类器;在测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果.这里的关键是如何对多分类任务进行拆分,以及如何对多个分类器进行集成.
- 最经典的拆分策略:OvO;OvR;OvM
在类别很多时,OvO 的训练时间开销通常比OvR 更小. 至于预测性能, 则取决于具体的数据分布, 在多数情形下两者差不多;
- *MvM
3.5类别不平衡问题
类别不平衡(cla胁imbalance)就是指分类任务中不同类别的训练样例数目差别很大的情况
- 基本策略——再缩放:
- 再缩放的三种技术:
第一类是直接对训练集里的反类样例进行"欠采样" (undersampling) ,即去除一些反倒使得正、反例数日接近, 然后再进行学习;
第二类是对训练集里的正类样例进行"过来样" (oversampling) ,即增加一些正例使得正、反例数目接近,然后再进行学习;
第三类则是直接基于原始训练集进行学习,但在用训练好的分类器进行预测时,将式(3.48)嵌入到其决策过程中,称为"阔值移动" (threshold-moving).