第一章 绪论
1.1基本概念
样本:对事件或对象的描述,即将现实事物抽象成某种数学形式——计算机能够理解的形式。
特征工程:采取多维度特征来刻画样本,且能够使特征尽可能简约或数值化的特征处理过程,在这个过程中利用特征建立的模型也能够进一步优化。
样本空间:样本的特征向量所在空间,通常用花式大写
表示。
数据集:通常用集合表示,集合中有多个样本,样本的表现形式为向量,向量中描述样本的特征个数一般相同。
模型:在机器学习中,数据集一般分为训练集和测试集。通过选择某种机器学习算法在训练集上进行训练,来得到一个模型,再用此模型对测试集进行测试来验证模型的效果,可以通过调整模型的参数、改变训练集和测试集的比例等方法来优化模型。
标记:一般第
个样本的标记数学表示为
,因此一个完整的样本通常表示为
。
分类:标记取值为离散型。可分为二分类和多分类。对于二分类,正类通常记为1,反类记为0,即
。
回归:标记取值为连续型。取值可能无法直接罗列,
。
泛化:根据已知来对未知做出准确判断的能力。算法和数据是影响泛化能力的关键:“数据决定模型的上限,而算法则是让模型无限逼近上限”。
数据决定模型的上限:数据量越大,累积的经验多,模型效果越好;特征数值化越合理,特征收集越全越细致,模型效果越好。
算法则是让模型无限逼近上限:不同算法得到的模型效果不同,效果越好则越逼近上限。
分布:即概率分布,通常假设样本空间服从一个未知“分布”
,而收集的样本都是独立地从该分布中采样得到的,即“独立同分布”。
假设空间:对数据集建立模型假设,预测未来的发展趋势。
版本空间:一个数据集可能有多个假设空间,而不同的假设空间都有可能学得能够拟合训练集的模型,将这些模型形成集合即为“版本空间”。