吃瓜教程学习笔记01

本文是学习笔记,涵盖了西瓜书和南瓜书第1、2章的内容。介绍了机器学习的基本术语,如示例、属性、假设空间,并概述了监督学习和无监督学习。同时,讨论了经验误差、过拟合和欠拟合的概念,以及模型评估的留出法、交叉验证法和自助法。最后,提到了性能度量,如错误率、精度、查准率、查全率和F1分数。

Task01:概览西瓜书+南瓜书第1、2章(2天)

打卡截止时间:2月15日03:00

学习建议:西瓜书第1章和第2章主要是讲一些基本概念和术语,大家自己看就好,不过第1章和第2章有一些知识点可以跳过不看,这些知识点在没有学过后面章节的具体机器学习算法之前较难理解,下面我将其划出来:

第1章:【1.4-归纳偏好】可以跳过

第2章:【2.3.3-ROC与AUC】及其以后的都可以跳过

笔记

第1章 绪论

1.1 引言

机器学习所研究的主要内容是关于基于“经验数据”计算产生模型的算法,这个模型可以帮助我们预测新的情况。

1.2 基本术语

示例/样本:关于一个事件或对象的描述,在属性张成的空间中每一个事件或特征都能对应一个向量坐标,因此一个示例也称为一个“特征向量”

属性/特征:反映事件或对象在某方面的表现或性质的事项

属性值:属性的取值

数据集:包含m个示例的集合 

在d维样本空间\chi中,示例x_{i}\in \chi

示例数据和示例结果组成了样例,使用这些样例来训练预测模型。

预测结果是离散值时是分类任务,预测结果是连续值时是回归任务,将没有标记的示例分成若干个组的任务是聚类

监督学习:训练集有标注信息(分类、回归)

无监督学习:训练集无标注信息(聚类)

1.3 假设空间

归纳:特殊->一般

演绎:一般->特殊

假设空间是所有假设组成的空间,假设的表示确定时,假设空间及其规模大小也是确定的。

1.5 发展历程

20世纪50-70年代初:推理期(已有机器学习的相关研究,六七十年代“符号主义”蓬勃发展)

20世纪70年代中期:知识期

20世纪80年代:成为独立的学科领域,各种机器学习技术百花绽放。符号主义学习是"从样例中学习"的一大主流是,机器学习在这个时期被视为"解决知识工程瓶颈问题的关键"

20世纪90年代中期之前:基于神经网络的连接主义学习成为"从样例中学习"的另一主流技术

20世纪90年代中期:“统计学习”占据主流

21世纪:深度学习

1.6 应用现状 

应用于诸多分支学科领域中,与人的生活密切相关

第2章 模型评估与选择

2.1 经验误差与过拟合

经验(训练)误差:学习器在训练集上样本预测值和真实值之间的差异

过拟合:学习器将样本的特殊性质看做了一般性质(只能缓解)

欠拟合:一般性质都没有学好(容易克服)

2.2 评估方法

留出法:直接将数据集划分为两个互斥的集合,一个训练集S ,另一个测试集T,在S上训练出模型后,用T来评估测试误差,作为对泛化误差的估计。

交叉验证法:将数据集划分成尽可能数据分布一致的k个大小相似的互斥子集,选取其中一个为测试集,剩下的为训练集,经过k次训练之后返回k个结果的均值(k值常用10,5,20等,k的取值很大程度上决定了评估结果的稳定性和保真性)

留一法:交叉验证法的特例,数据集 D 包含 m 个样本,令 k=m, 每次用一个样本做测试。

自助法:每次随机从数据集中挑选一个样本放入采样集中,初始训练集中约有36.8%的样本未出现在采样集中,将采样集作为训练集,数据集/采样集作为测试集进行训练。(自助法在数据集较小、难以有效划分训练/测试集时很有用)

2.3 性能度量

性能度量是衡量模型泛化能力的评价标准,反映了任务需求,模型的好坏是相对的,不仅取决于算法和数据,还决定于任务需求。

回归任务最常用的性能度量是均方误差

2.3.1 错误率与精度

错误率是分类错误的样本占样本总数的比例 

精度是分类正确的样本数占样本总数的比例 

 2.3.2 查准率、查全率与F1

对于二分类问题,可以将样例真实类别与测试类别的组合划分为真正、假正、真反、假反四种情形(小声bb:感觉这里和真假命题好像)

 

查准率和查全率是一对相互矛盾的度量 

 若一个学习器的R-P曲线被另一个R-P曲线完全包住,则后者的性能优于前者;若两个R-P曲线发生了交叉,只能在具体的查准率或查全率条件下比较性能。

一些综合查准率、查全率的性能度量:

平衡点(BEP):查准率=查全率时的取值

更为常用的F1度量:

 能让我们表达出对查准率/查全率不同偏好的F_{\beta }

 \beta>0度量了查全率对查准率的相对重要性,\beta=1是即F1,\beta>1时查全率有更大影响;\beta<1时查准率有更大影响 。

 

 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值