《机器学习》--西瓜书版

原创于 2024-10-16 22:29:52 发布 · 1.6k 阅读

CC 4.0 BY-SA版权

文章标签：

第一章绪论

导论：人工智能→机器学习→深度学习

人工智能的具体应用领域：

样本：要想让计算机能对现实生活中的事物进行机器学习，必须先将其抽象为计算机能理解的形式，计算机最擅长做的就是进行数学运算，因此考虑如何将其抽象为某种数学形式。显然，线性代数中的向量就很适合，因为任何事物都可以由若干“特征”（或称为“属性”）唯一刻画出来，而向量的各个维度即可用来描述各个特征。
样本空间：也称“输入空间”，“属性空间”。称表示样本的特征向量所在的空间为样本空间，通常用花式大写的 X 表示。
数据集：：数据集通常用集合来表示，令集合 D = {x1, x2, ..., xm} 表示包含 m 个样本的数据集。每一个元素x都是一个向量，一般来说每个向量x的维数是一样的，假设此数据集中的每个样本都含有 d 个特征，则第 i个样本的数学表示为 d 维向量

标记：机器学习的本质就是在学习样本在某个方面的表现是否存在潜在的规律，我们称该方面的信息为“标记”。一般第 i 个样本的标记的数学表示为 yi，标记所在的空间称为“标记空间”或“输出空间”，数学表示为花式大写的 Y。标记通常也看作为样本的一部分，因此，一个完整的样本通常表示为 (x, y)。
- 当标记取值为离散型时，称此类任务为“分类”
- 当标记取值为连续型时，称此类任务为“回归”
在模型训练阶段有用到标记信息时，称此类任务为“监督学习”
在模型训练阶段没用到标记信息时，称此类任务为“无监督学习”
泛化：由于机器学习的目标是根据已知来对未知做出尽可能准确的判断，因此对未知事物判断的准确与否才是衡量一个模型好坏的关键，我们称此为“泛化”能力。

“数据决定模型的上限，而算法则是让模型无限逼近上限”

数据决定模型的上限：
1. 数据量：一般而言是越多越好
2. 数据工程：一般而言是对特征数值化越合理，特征收集越全越详细，模型效果一般越好。因为该样本更容易学得样本之间潜在的规律。
**算法则是让模型无限逼近上限：**当数据相关的工作已准备充分时，接下来便可用各种可适用的算法从数据中学习其潜在的规律进而得到模型，不同的算法学习得到的模型效果自然有高低之分，效果越好则越逼近上限，即逼近真相。