第一章 绪论
导论:人工智能→机器学习→深度学习
人工智能的具体应用领域:
- 计算机视觉(CV)
- 自然语言处理(NLP)
- 推荐系统(RS)
1.1基本术语
- 样本:要想让计算机能对现实生活中的事物进行机器学习,必须先将其抽象为计算机能理解的形式,计算机最擅长做的就是进行数学运算,因此考虑如何将其抽象为某种数学形式。显然,线性代数中的向量就很适合,因为任何事物都可以由若干“特征”(或称为“属性”)唯一刻画出来,而向量的各个维度即可用来描述各个特征。
- 样本空间:也称“输入空间”,“属性空间”。称表示样本的特征向量所在的空间为样本空间,通常用花式大写的 X 表示。
- 数据集::数据集通常用集合来表示,令集合 D = {x1, x2, ..., xm} 表示包含 m 个样本的数据集。每一个元素x都是一个向量,一般来说每个向量x的维数是一样的,假设此数据集中的每个样本都含有 d 个特征,则第 i个样本的数学表示为 d 维向量
- 模型:
-
标记:机器学习的本质就是在学习样本在某个方面的表现是否存在潜在的规律,我们称该方面的信息为“标记”。一般第 i 个样本的标记的数学表示为 yi,标记所在的空间称为“标记空间”或“输出空间”,数学表示为花式大写的 Y。标记通常也看作为样本的一部分,因此,一个完整的样本通常表示为 (x, y)。
- 当标记取值为离散型时,称此类任务为“分类”
- 当标记取值为连续型时,称此类任务为“回归”
-
在模型训练阶段有用到标记信息时,称此类任务为“监督学习”
-
在模型训练阶段没用到标记信息时,称此类任务为“无监督学习”
-
泛化:由于机器学习的目标是根据已知来对未知做出尽可能准确的判断,因此对未知事物判断的准确与否才是衡量一个模型好坏的关键,我们称此为“泛化”能力。
“数据决定模型的上限,而算法则是让模型无限逼近上限”
- 数据决定模型的上限:
- 数据量:一般而言是越多越好
- 数据工程:一般而言是对特征数值化越合理,特征收集越全越详细,模型效果一般越好。因为该样本更容易学得样本之间潜在的规律。
- **算法则是让模型无限逼近上限:**当数据相关的工作已准备充分时,接下来便可用各种可适用的算法从数据中学习其潜在的规律进而得到模型,不同的算法学习得到的模型效果自然有高低之分,效果越好则越逼近上限,即逼近真相。
- 分布:即概率论中的分布。
1.2归纳偏好
不同的机器学习的算法会得到不同的模型,这就是“归纳偏好”。
对于一个项目,不同算法得到的不同模型,哪一个更好呢?
—>“若有多个假设与观察一致,则选最简单的那个”
—>但是“简单”的评判标准不太清晰。
所以评价模型好与否最常用的方法则是基于模型在测试集上的表现来评判模型之间的优劣。
注:机器学习算法之间没有绝对的优劣之分,只有是否适合当前待解决的问题之分
第二章 模型评估与选择
2.1 经验误差和过拟合
错误率:E =a/m ,其中 m 为样本个数,a 为分类错误样本个数。 精度:精度 =1-错误率。 误差:学习器的实际预测输出与样本的真实输出之间的差异。 经验误差:学习器在训练集上的误差,又称为“训练误差”。 泛化误差:学习器在新样本上的误差。
过拟合是由于模型的学习能力相对于数据来说过于强大
即:
我们希望得到表现很好的学习器(模型),所以我们希望从训练样本中尽可能学出适用于所有潜在样本的“普遍规律”,这样才能在新的样本出现时做出正确的判别。
然而,当学习器把训练样本学的“过于好”了的时候,很可能已经把独属于训练集本身的一些特点当作了所有潜在样本都具有的特点,这会导致泛化性能下降,这种现象我们就叫做“过拟合”
欠拟合是因为模型的学习能力相对于数据来说过于低下。
即:学习器连训练样本所具有的包含的潜在样本所包含的特点都没学到。
2.2评估方法
2.2.1 留出法(hold-out)
定义:直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T。
我们在训练集S上训练出模型,在测试集T上测试模型的准确性。
注意:
- 在划分训练集和测试集时,尽可能保持数据分布的一致性,避免因数据划分过程中引入额外的偏差而对最终结果产生影响。
2.从采样的角度来说,我们可以使用经典的“分层采样”
2.2.2交叉验证法(cross validation)
2.2.3自助法(bootstrapping)
对于留出法和交叉验证法,我们知道它们都把数据集D分了一部分出来,这导致我们实际训练时的数据集实际上是有所缺失的,而自助法可以一定程度上解决这个问题。
自助法直接以自助采样法为基础。
(待完善)
2.3性能度量
主要是:错误率,精度,查准率,查全率,F1,ROC,AUC.
(待更新)