机器学习基本概念

机器学习基本概念

基本术语

  • 样本(sample)/示例(instance): 对事物的抽象化描述

    李明:(学号=“201610311”, 专业=“计算机”, 年龄=“23”)
    x i x_i xi: ( x i 1 x_{i1} xi1; x i 2 x_{i2} xi2; x i 3 x_{i3} xi3)

  • 属性(attribute)/特征(feature): 事物某方面的描述(一个样本可以有多种属性)

    学号 x i 1 x_{i1} xi1, 专业 x i 2 x_{i2} xi2, 年龄 x i 3 x_{i3} xi3, x i x_{i} xi = ( x i 2 x_{i2} xi2; x i 2 x_{i2} xi2; x i 2 x_{i2} xi2 )^t(t表示转置)
    属性值: 属性上的取值。 x i 2 x_{i2} xi2 = 计算机, x i 3 x_{i3} xi3= 23

  • 特征向量(feature vector): 样本对应于属性空间/样本空间的某一个点(一个样本的属性向量)

x i x_{i} xi = ( x i 2 x_{i2} xi2; x i 2 x_{i2} xi2; x i 2 ) t x_{i2} )^t xi2)t(t表示转置)

  • 维数(dimensionality): 特征向量中分量的个数

x i = ( x i 1 ; x i 2 ; ⋅ ⋅ ⋅ ; x i d ) t x_i = (x_{i1}; x_{i2}; · · · ; x_{id})^t xi=(xi1;xi2;;xid)t,d 即为维数

  • 数据集(Database/Data matrix): 所有数据样本/特征向量组成的集合

X = ( x 1 ; x 2 ; ⋅ ⋅ ⋅ ; x n ) X = (x_1; x_2; · · · ; x_n) X=(x1;x2;;xn),n 为数据样本个数

  • 标签(label): 对某个样本的某种标记

    x i → y i , y i x_i → y_i,y_i xiyiyi = {−1; +1}/{0; 1}
    X = ( x 1 ; x 2 ; ⋅ ⋅ ⋅ ; x n ) X = (x_1; x_2; · · · ; x_n) X=(x1;x2;;xn) Y = ( y 1 ; y 2 ; ⋅ ⋅ ⋅ ; y n ) Y = (y_1; y_2; · · · ; y_n) Y=(y1;y2;;yn)
    D = ( x 1 ; y 1 ) ; ( x 2 ; y 2 ) ; ⋅ ⋅ ⋅ ; ( x n ; y n ) D = {(x_1; y_1); (x_2; y_2); · · · ; (x_n; y_n)} D=(x1;y1);(x2;y2);;(xn;yn)

  • (机器) 学习(machine learning): 从给定的数据集中学习出某种模型的算法

  • 训练集(training set), X t X_t Xt: 数据集中用来学习模型的部分数据

  • 测试集(testing set), X s X_s Xs: 数据集中用来测试学习到模型性能的部分数据,因此我们有:

    X = X t + X s X = X_t + X_s X=Xt+Xs
    X = X t + X v + X s X = X_t + X_v + X_s X=Xt+Xv+Xs,Xv 为验证集, 常常用来调试学得的模型中某些参数

学习的分类

  1. 无监督学习(unsupervised learning): 学习过程中没有用到样本标签,即训练数据集 X t X_t Xt 不带标签

    eg:聚类(clustering)

  2. 有监督学习(supervised learning):学习过程中用到样本标签

    eg:分类(classification,离散)、回归(regression,连续)

  3. 半监督学习(semi-supervised learning):训练数据部分带标签,部分不带标签

  4. 强化学习(Reinforcement learning):强化学习的中心思想,就是让智能体在环境里学习。每个行动会对应各自的奖励,智能体通过分析数据来学习,怎样的情况下应该做怎样的事情。

模型的选择

拟合与误差

  • 欠拟合(under-fitting):学得的模型不足以描述数据分布。训练数据误差较大。模型过于简单。

  • 过拟合(over-fitting):学得的模型对训练数据过分匹配精确,导致无法适应新的数据测试。数据误差较大。

  • 训练误差(training error,也叫经验误差,empirical error):学习器在训练集上的误差。

  • 泛化误差(generalization error),在新样本上的误差。

评估方法

  • 留出法(hold-out):直接将 X X X分解为两个不相交的集合,其中一个作为训练集,另一个作为测试集。常常将 2 3 − 4 5 \frac23-\frac45 3254的样本用于训练,其余用于测试。
  • 交叉验证(cross validation): 将数据集 X X X分解为 k k k个互补相交的子集,即 X 1 ∪ X 2 ∪ ⋅ ⋅ ⋅ ∪ X k = X X1 ∪X2∪· · ·∪Xk = X X1X2Xk=X。然后每次用 k − 1 k − 1 k1个子集训练,剩余一个做测试,最终返回k 个测试结果—— k k k 折交叉验证。假定数据集 X X X中包含 m m m个样本若令 k = m k=m k=m,则得到了交叉验证的一个特例留一法(Leave-One-Out,LOO)

错误率与精度

在分类任务中,精度和错误率是最常用的模型性能度量。现在假设数据集 D = { ( x 1 ; y 1 ) ; ( x 2 ; y 2 ) ; ⋅ ⋅ ⋅ ; ( x n ; y n ) } D =\{(x1; y1); (x2; y2); · · · ; (xn; yn)\} D={(x1;y1);(x2;y2);;(xn;yn)},学习得到的模型为 f : x → y f : x → y f:xy

  • 错误率(分类错误的样本数占样本总数的比例): E ( f ; D ) = 1 n ∑ i n Π ( f ( x i ≠ y i ) ) E(f; D) = \frac1n\sum^n_i\varPi(f(xi\neq yi)) E(f;D)=n1inΠ(f(xi=yi))
  • 精度(分类正确的样本数占样本总数的比例): a c c ( f ; D ) = 1 n ∑ i n Π ( f ( x i ≠ y i ) ) = 1 − E ( f ; D ) acc(f; D) = \frac1n \sum^n_i\varPi(f(xi\neq yi)) = 1 − E(f; D) acc(f;D)=n1inΠ(f(xi=yi))=1E(f;D)
    其中, Π \varPi Π 代表一个指示函数。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值