机器学习基本概念

最新推荐文章于 2024-01-22 19:13:26 发布

Maricat4

最新推荐文章于 2024-01-22 19:13:26 发布

阅读量242

点赞数 1

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/qq_32061629/article/details/104903585

版权

1 篇文章

订阅专栏

样本(sample)/示例(instance): 对事物的抽象化描述

李明:(学号=“201610311”, 专业=“计算机”, 年龄=“23”)
$x_i$ : ( $x_{i1}$ ; $x_{i2}$ ; $x_{i3}$ )
属性(attribute)/特征(feature): 事物某方面的描述（一个样本可以有多种属性）

学号 $x_{i1}$ , 专业 $x_{i2}$ , 年龄 $x_{i3}$ , $x_{i}$ = ( $x_{i2}$ ; $x_{i2}$ ; $x_{i2}$ )^t(t表示转置)
属性值: 属性上的取值。 $x_{i2}$ = 计算机, $x_{i3}$ = 23
特征向量(feature vector): 样本对应于属性空间/样本空间的某一个点（一个样本的属性向量）

$x_{i}$ = ( $x_{i2}$ ; $x_{i2}$ ; $x_{i2} )^t$ (t表示转置)

$x_i = (x_{i1}; x_{i2}; · · · ; x_{id})^t$ ,d 即为维数

$X = (x_1; x_2; · · · ; x_n)$ ,n 为数据样本个数

标签(label): 对某个样本的某种标记

$x_i → y_i，y_i$ = {−1; +1}/{0; 1}
$X = (x_1; x_2; · · · ; x_n)$ → $Y = (y_1; y_2; · · · ; y_n)$
$D = {(x_1; y_1); (x_2; y_2); · · · ; (x_n; y_n)}$
(机器) 学习(machine learning): 从给定的数据集中学习出某种模型的算法
训练集(training set)， $X_t$ : 数据集中用来学习模型的部分数据
测试集(testing set)， $X_s$ : 数据集中用来测试学习到模型性能的部分数据，因此我们有：

$X = X_t + X_s$
$X = X_t + X_v + X_s$ ，Xv 为验证集, 常常用来调试学得的模型中某些参数

无监督学习(unsupervised learning): 学习过程中没有用到样本标签，即训练数据集 $X_t$ 不带标签

eg:聚类(clustering)
有监督学习(supervised learning)：学习过程中用到样本标签

eg:分类(classification,离散)、回归(regression,连续)
半监督学习(semi-supervised learning)：训练数据部分带标签，部分不带标签
强化学习(Reinforcement learning):强化学习的中心思想，就是让智能体在环境里学习。每个行动会对应各自的奖励，智能体通过分析数据来学习，怎样的情况下应该做怎样的事情。

留出法（hold-out)：直接将 $X$ 分解为两个不相交的集合，其中一个作为训练集，另一个作为测试集。常常将 $\frac23-\frac45$ 的样本用于训练，其余用于测试。
交叉验证(cross validation): 将数据集 $X$ 分解为 $k$ 个互补相交的子集，即 $X 1 \cup X 2 \cup \cdot \cdot \cdot \cup X k = X$ 。然后每次用 $k - 1$ 个子集训练，剩余一个做测试，最终返回k 个测试结果—— $k$ 折交叉验证。假定数据集 $X$ 中包含 $m$ 个样本若令 $k = m$ ,则得到了交叉验证的一个特例留一法（Leave-One-Out,LOO)。

在分类任务中，精度和错误率是最常用的模型性能度量。现在假设数据集 $D =\{(x1; y1); (x2; y2); · · · ; (xn; yn)\}$ ，学习得到的模型为 $f : x \to y$ 。

错误率(分类错误的样本数占样本总数的比例)： $\frac1n\sum^n_i\varPi(f(xi\neq yi))$
精度(分类正确的样本数占样本总数的比例): $\frac1n \sum^n_i\varPi(f(xi\neq yi)) = 1 − E(f; D)$
其中， $\varPi$ 代表一个指示函数。