《机器学习》西瓜书读书笔记

本文是《机器学习》的读书笔记,涵盖了模型评估、线性模型和算法基础等内容。讨论了训练误差与泛化误差、过拟合与欠拟合、数据集划分方法如留出法和交叉验证。此外,还深入讲解了线性回归、对数线性回归以及线性判别分析在分类和回归任务中的应用。

数学公式

Ⅱ(⋅)是指示函数,若⋅为真则取1,否则取0Ⅱ(·)是指示函数,若·为真则取1,否则取0(),1,0

#第一章:绪论

数据集→示例(instance)/样本(sample)→属性(attribute)/特征(feature)
                  ↓
一个属性为一维,n个属性构成n维属性空间/样本空间/输入空间,空间中每个点对应一个坐标向量, 把这个示例成为特征向量(feature vector)
训练过程中使用的数据称为“训练数据”,训练样本组成的集合 称为“训练集”,其为样本空间的一个采样
样例(example):拥有标记信息的示例。所有标记的集合称为“标记空间”或“输出空间”


预测任务:通过训练对训练集进行学习,建立一个从输入空间到输出空间的映射

预测的是离散值:分类{ 二分类{ 正类负类多分类\begin{cases}二分类\begin{cases}正类\\负类\end{cases}\\ 多分类\end{cases}{


预测的是连续值:回归

聚类(clustering):将训练集中训练数据分为若干组,每组称为一个“簇(cluster)”,这些簇是自动形成的

根据训练数据是否拥有标记信息?{ 有监督学习(supervised learning):分类、回归无监督学习:聚类根据训练数据是否拥有标记信息?\begin{cases}有监督学习(supervised\ learning):分类、回归\\无监督学习:聚类\end{cases}?{ (supervised learning)

归纳(induction):特殊到一般的泛化

演绎(deduction):一般到特殊的特化

版本空间(version space):存在着一个与训练集一致的"假设集合"即可能有多个假设与训练集一致,称之.

归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好

任何一个有效的机器学习算法必有其归纳偏好,采用"奥卡姆剃刀"原则(若有多个假设与观察一致,则选最简单的那个)引导算法确立"正确的"偏好                   ↑
                       假设选择原则

从样例中学习{ 符号主义学习产生明确的概念{ 决策树以信息论为基础,以信息熵的最小化为目标基于逻辑的学习基于神经网络的连接主义学习产生&quot;黑箱&quot;模型:BP算法从样例中学习\begin{cases}符号主义学习_{产生明确的概念}\begin{cases}决策树_{以信息论为基础,以信息熵的最小化为目标}\\基于逻辑的学习\end{cases}\\ 基于神经网络的连接主义学习_{产生&quot;黑箱&quot;模型}:BP算法\end{cases}{ ,"":BP<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值