目录
比较检验:统计假设检验hypothesis test:以错误率为性能度量
全局最小global minimum和局部极小local minimum
第1章:绪论
学习算法learning algorithm:假设用P来评估计算机程序在某任务类T上的性能, 若一个程序通过利用经验E 在T中任务上获得了性能改善,則我们就说关于T和P,该程序对E进行了学习
模型:指全局性结果,是算法产出的结果,例如一棵决策树
模式:指局部性结果,例如一条规则
数据集data set
示例instance=样本sample=特征向量feature vector:数据集中的每条记录
属性attribute=特征feature
属性值attribute value
属性空间attribute space=样本空间sample space=输入空间X
样本的维数dimensionality d:每个示例由d个属性描述
学习learning=训练training:从数据中学得模型的过程
训练数据training data:训练过程中使用的数据
训练样本training sample=训练示例training instance=训练例:训练中用的每个样本
训练集training set:训练样本组成的集合
测试testing:学得模型后,使用其进行预测的过程
测试样本testing sample=測试示例testing instance=测试例:被预测的样本
标记label:关于示例结果的信息,例如好瓜
样例example:拥有了标记信息的示例
标记空间label space=输出空间Y:所有标记的集合
新样本=未见示例unseen instance
泛化generalization:学得模型适用于新样本
假设hypothesis:学得模型对应的关于数据的某种潜在的规律
真相=真实ground-truth:这种潜在规律自身
学习器learner=模型:即学习算法在给定数据和参数空间上的实例化
预测prediction
分类classification:欲预测的是离散值的一类学习任务,例如好瓜or坏瓜
回归regression:欲预测的是连续值
二分类binary classification:只涉2个类别:正类positive class和负/反类negative class
多分类multi-class classification:可以分解为若干个二分类问题
聚类clustering:即将训练集中的西瓜分成若干组
簇cluster:每一个组
监督学习supervised learning=有导师学习:训练数据拥有标记信息,如分类、回归
无监督学习unsupervised learning=无导师学习:训练数据没有标记信息,如聚类
通常假设样本空间中全体样本服从一个未知分布distribution D,我们获得的每个样本都是独立地从这个分布上采样获得的,即独立同分布independent and identically distributed=i.i.d.
归纳induction:前者是从特殊到一般的泛化generalization过程
演绎deduction:从一般到特殊的特化specialization过程
归纳学习inductive learning
广义的归纳学习=从样例中学习
狭义的归纳学习=概念学习=概念形成:要求从训练数据中学得概念concept
机械学习=死记硬背式学习:记住训练样本
难点:
假设空间:假设房价与学校数量成正比,则房价预测问题的假设空间为一元一次函数
版本空间:与训练集一致的假设集合,即能够拟合训练集的模型构成的集合
析合范式=多个合取式的析取
归纳偏好inductive bias=偏好:如选择尽可能特殊,或选择尽可能一般的模型
属性选择=特征选择feature selection:在归纳偏好中对哪种属性更重视
奥卡姆剃刀Occarn's Tazor:若有多个假设与观察一致,则选最简单的那个
公式1.1-1.3:没有免费的午餐定理No Free Lunch Theorem=NFL:
所以,脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义,因为若考患所有潜在的问题,则所有学习算法都一样好
WEKA机器学习算法程序库:https://www.cs.waikato.ac.nz/ml/weka/
国内机器学习重要会议:中国机器学习大会CCML、机器学习及其应用研讨
会MLA
萨缪尔跳棋程序:早期计算机科学研究认为,计算机不可能完成事先没有显式编程好的任务,而萨缪尔跳棋程序香证了这个假设
1.5发展历程、1.6应用现状:略
第2章:模型评估与选择
错误率error rate:分类错误的样本数占样本总数的比例
精度accuracy=1-错误率
误差error:学习器的实际预测输出与样本的真实输出之间的差异
训练误差training error=经验误差:学习器在训练集上的误差
泛化误差generalization error:在新样本上的误差
过拟合=过配:学习器把训练样本学得“太好”了的时候,很可能己经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质。只要相信P不等于NP,过拟合就不可避免
欠拟合=欠配
模型选择model selection:考虑选用哪一个学习算法、使用哪一种参数配置
测试误差testing error:作为泛化误差的近似
验证集validation set:我们通常把学得模型在实际使用中遇到的数据称为测试数据,为了加以区分,模型评估与选择中用于评估测试的数据集常称为验证集
分层采样stratified sampling:保留类别比例的采样方式,为了保持数据分布的一致性
评估方法
留出法hold-out:
数据集D=训练集S∩测试集T,即将D划分为两个互斥的集合
在S上训练出模型后,用T水评估其测试误差
交叉验证法cross validation=k折交叉验证k-fold cross validation=k倍交叉验证:
将数据集D划分为k个大小相似的互斥子集
每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集
最终返回的是这k个测试结果的均值
p次k折交叉验证:
与留出法相似,将数据集D划分为k个子集同样存在多种划分方式.为减小因样本划分不同而引入的差别,k折交叉验证通常要随机使用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值
留一法Leave-One-Out=LOO:k=D中的样本个数,⊆k折交叉验证
自助法bootstrapping:
以自助采样法为基础,给定包含m个样本的数据集D&