机器学习(西瓜书) 学习笔记(实时更新)

本文全面介绍了机器学习领域的核心概念,包括模型、学习算法、数据集、样本、属性、假设、标记、分类、回归、监督与无监督学习、泛化能力等,深入探讨了错误率、精度、查准率、查全率、AUC等性能度量,以及线性模型、正则化、对数几率回归等算法。

4_21笔记
模型(学习机)
学习算法
数据集
样本
属性(特征)
属性空间(特征空间)(样本空间)
样本维数
学习(训练)
训练数据:训练过程使用的数据
训练样本:训练数据中的每一个样本
训练集:训练样本组成的集合
假设
真相(事实)
标记(label)
样例(拥有了标记信息的事例)
标记空间(样本空间)
分类:预测的是离散值
回归:预测的是连续值
正类、反类:对于二分类问题,一个类为正类,另一个为反类
多分类任务
测试:学得模型以后,使用其进行预测的过程
测试样本:预测过程中被预测的样本
聚类

监督学习:分类和回归
无监督学习:聚类
泛化能力:学得模型适用于新样本的能力
分布
独立同分布
归纳:从特殊到一般的泛化过程,即从具体的事实归结出一般性规律,从样例中学习,即归纳学习
推理:从一般到特殊的特化过程,即从基础原理推演出具体状况,基于一组公理和推理规则推导出与之相洽的定理
广义归纳:从样例中学习
狭义归纳:从训练数据中学得概念,亦称为概念学习或概念形成
布尔概念学习
假设
假设匹配
假设空间
版本空间:与训练集一致的假设集合
偏好(归纳偏好):机器学习算法在学习过程中对某种类型假设的偏好
奥卡姆剃刀原则:若有多个假设与观察一致,则选择最简单的那个
没有免费的午餐定理(NFL):无论哪个算法,他们的期望性能都相同,告诉我们谈论算法的相对优劣,必须要针对具体的学习问题
错误率:分类错误的样本数占样本总数的比率,设错误样本a,总样本m. 错误率是a/m*100%
精度:1-错误率 即1-a/m
误差:学习机的实际预测输出与样本的真实输出之间的差异称为误差
训练误差(经验误差):学习机在训练集上的误差称为训练误差(经验误差)
泛化误差:在新样本上的误差
过拟合:学习机把训练样本学得“太好”,,把训练样本的自身的一些特点当作了所有潜在样本的普遍规律,导致泛化能力下降
欠拟合:对训练样本的一般性质尚未学好
NP:多项式非确定性问题,只要P不等于NP,过拟合是无法避免的
模型选择问题
测试集:用来测试学习机对新样本的判别能力,通常假设测试样本也是从样本真实分布中独立同分布采样而得,应尽可能与顺连集互斥,即测试样本尽量不在训练集中出现,未在训练过程中使用过
测试误差:泛化误差的近似
留出法:直接将训练集D划分成两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,由于单次使用留出法得到的估计结果往往不够稳定可靠,在使用留出法的时候,一般采用若干次随机划分、重复进行试验评估后取平均值作为留出法的评估结果
交叉验证法(K折交叉验证):先将数据集D划分为K个大小相似的互斥子集,每个子集尽可能保持数据分布的一致性,即从D中通过分层采样得到,然后,每次将K-I个子集作为训练集,剩下的一个子集作为测试集,然后就获得了K组训练/测试集,从而可以进行K次训练和测试,最终返回的是这K个测试结果的均值(K常用取10,此时叫10折交叉验证,其他常用的有5,20等),将测试集D划分为K个子集同样有多种方式,因此采用不同的划分方法重复p次,这时叫p次K折交叉验证
留一法(LOO):交叉验证法特例,假定数据集D包含m个样本,令K=m
自助法:以自助采样法为基准,给定包含m个样本的数据集D,对它进行有放回的采样m个样本产生数据集D‘,用D’作为训练集,用D\D’(\表示减法)作为测试集,这样就排除了因训练样本规模不同导致的估计偏差,在数据集较小、难以有效划分训练/测试集时很有用,但改变了初始数据集的分布
包外估计:自助法这样的,实际评估模型与期望评估的模型都使用m个训练样本,而仍有没在训练集中出现过的样本用于测试的测试结果
验证集:模型评估与选择中用于评估测试的数据集常称为验证集
性能度量:衡量模型泛化能力的评价标准回归任务最常用的性能度量是均方误差
错误率与精度
查准率、查全率与F1:真正例TP,假反例FN,假正例FP,真反例TN,查准率P=TP/(TP+FP),查全率R=TP/(TP+FN)查准率和查全率是一对矛盾的度量
P-R曲线
平衡点(BEP):P-R曲线上查准率= 查全率时的取值
F1度量:beta>1时查全率有更大影响,beta<1时查准率有更大影响
宏查准率、宏查全率、宏F1
微查准率、微查全率、微F1
受试者工作特征(ROC):ROC曲线,研究学习机泛化性能的工具,ROC和AUC详解
真正例率(TPR):TPR=TP/(TP+FN)
假正例率(FPR):FPR=FP/(TN+FP)
AUC:随机挑选一个正样本以及一个负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值。这里的score值就是预测为正的概率的值,排在前面表示的是正样本的预测为正的概率值大于负样本的预测为正的概率值。计算是ROS曲线的面积
非均等代价
代价矩阵
代价曲线:书上说的太少,理解起来有难度,这个博客讲的明白
统计假设检验:试验估计泛化性能
泛化误差:可分解为偏差、方差、噪声之和
偏差:度量了学习算法的期望预测与真实结果的偏离程度,刻画了学习算法本身的拟合能力
方差:度量了同样大小数据集的变动导致的学习性能的变化,即刻画了数据扰动所造成的影响
噪声:表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,刻画了学习问题本身的难度
偏差-方差窘境
线性模型
离散属性连续化
均方误差(平方损失)
欧式距离
最小二乘法:基于均方误差最小化来进行模型求解的方法
参数估计
多元线性回归:考虑多个属性
正则化项
对数线性回归
广义线性模型
对数几率回归
极大似然法
线性判别分析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值