机器学习基础入门
1. 引言
机器学习中有诸多基础概念,与深度学习密切相关。不过,机器学习内容广泛,无法面面俱到。下面将介绍监督机器学习的基本框架和通用学习过程,探讨机器学习理论的核心概念,如 VC 分析和偏差 - 方差权衡,以及它们与过拟合的关系。还会介绍各种模型评估、性能和验证指标,讨论一些基本的线性分类器,阐述非线性变换的一般原理,介绍生成式分类器,展示如何通过线性算法实现基本的非线性,强调常见的特征变换,并引入序列建模。最后,会通过一个实际问题和数据集进行监督机器学习的案例研究。
2. 监督学习:框架和正式定义
2.1 监督学习概述
监督机器学习是从“神谕”提供的答案(标签或真实值)中进行广义学习的任务。例如,学习区分苹果和橙子。监督学习过程的各个组件如下:
2.2 输入空间和样本
- 对于特定学习问题(如区分苹果和橙子),所有可能数据的总体用任意集合 X 表示。样本可从总体 X 中以未知概率分布 P(X) 独立抽取,形式上表示为 (X = {x_1,x_2,…,x_n}),且 (X ⊆ X)。
- 从输入空间 X 中抽取的集合 X 中的单个数据点(实例或示例)通常以 d 维向量 (x_i) 形式表示,向量 (x_i) 的元素称为特征或属性。例如,苹果和橙子可以用 {形状, 大小, 颜色} 这 3 个特征/属性来定义。特征可以是分类或标称的,也可以是有序的,有序特征可以是离散的或连续的。
- 整个输入数据和相应标签可以用矩阵形式表示:
[
X =
\begin{bmatrix}
x_{11} & x_{1
超级会员免费看
订阅专栏 解锁全文
17万+

被折叠的 条评论
为什么被折叠?



