《机器学习》西瓜书读书笔记

最新推荐文章于 2024-09-21 19:45:12 发布

BaldStrong

最新推荐文章于 2024-09-21 19:45:12 发布

阅读量562

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：读书笔记机器学习西瓜书

本文链接：https://blog.youkuaiyun.com/weixin_42306122/article/details/99748298

本文是《机器学习》的读书笔记，涵盖了模型评估、线性模型和算法基础等内容。讨论了训练误差与泛化误差、过拟合与欠拟合、数据集划分方法如留出法和交叉验证。此外，还深入讲解了线性回归、对数线性回归以及线性判别分析在分类和回归任务中的应用。

数学公式

$Ⅱ (\cdot) 是指示函数, 若 \cdot 为真则取 1, 否则取 0$

#第一章：绪论

数据集→示例(instance)/样本(sample)→属性(attribute)/特征(feature)
↓
一个属性为一维，n个属性构成n维属性空间/样本空间/输入空间，空间中每个点对应一个坐标向量，把这个示例成为特征向量(feature vector)
训练过程中使用的数据称为“训练数据”，训练样本组成的集合称为“训练集”，其为样本空间的一个采样
样例(example)：拥有标记信息的示例。所有标记的集合称为“标记空间”或“输出空间”

预测任务：通过训练对训练集进行学习，建立一个从输入空间到输出空间的映射

预测的是离散值：分类 $正类负类多分类\begin{cases}二分类\begin{cases}正类\\负类\end{cases}\\ 多分类\end{cases}$

预测的是连续值：回归

聚类(clustering)：将训练集中训练数据分为若干组，每组称为一个“簇（cluster）”，这些簇是自动形成的

$learning)：分类、回归无监督学习：聚类根据训练数据是否拥有标记信息?\begin{cases}有监督学习(supervised\ learning)：分类、回归\\无监督学习：聚类\end{cases}$

归纳(induction)：特殊到一般的泛化

演绎(deduction)：一般到特殊的特化

版本空间(version space):存在着一个与训练集一致的"假设集合"即可能有多个假设与训练集一致,称之.

归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好

任何一个有效的机器学习算法必有其归纳偏好,采用"奥卡姆剃刀"原则(若有多个假设与观察一致,则选最简单的那个)引导算法确立"正确的"偏好 ↑
假设选择原则

$决策树以信息论为基础,以信息熵的最小化为目标基于逻辑的学习基于神经网络的连接主义学习产生"黑箱"模型:BP算法从样例中学习\begin{cases}符号主义学习_{产生明确的概念}\begin{cases}决策树_{以信息论为基础,以信息熵的最小化为目标}\\基于逻辑的学习\end{cases}\\ 基于神经网络的连接主义学习_{产生"黑箱"模型}:BP算法\end{cases}$