机器学习基本概念

本文深入浅出地介绍了机器学习的基本概念,包括样本、属性、特征向量、数据集、标签、模型选择、拟合与误差等核心内容,并探讨了不同类型的机器学习方法及其应用。

机器学习基本概念

基本术语

  • 样本(sample)/示例(instance): 对事物的抽象化描述

    李明:(学号=“201610311”, 专业=“计算机”, 年龄=“23”)
    xix_ixi: (xi1x_{i1}xi1; xi2x_{i2}xi2;xi3x_{i3}xi3)

  • 属性(attribute)/特征(feature): 事物某方面的描述(一个样本可以有多种属性)

    学号xi1x_{i1}xi1, 专业xi2x_{i2}xi2, 年龄xi3x_{i3}xi3, xix_{i}xi = (xi2x_{i2}xi2; xi2x_{i2}xi2; xi2x_{i2}xi2 )^t(t表示转置)
    属性值: 属性上的取值。xi2x_{i2}xi2 = 计算机, xi3x_{i3}xi3= 23

  • 特征向量(feature vector): 样本对应于属性空间/样本空间的某一个点(一个样本的属性向量)

xix_{i}xi = (xi2x_{i2}xi2; xi2x_{i2}xi2; xi2)tx_{i2} )^txi2)t(t表示转置)

  • 维数(dimensionality): 特征向量中分量的个数

xi=(xi1;xi2;⋅⋅⋅;xid)tx_i = (x_{i1}; x_{i2}; · · · ; x_{id})^txi=(xi1;xi2;;xid)t,d 即为维数

  • 数据集(Database/Data matrix): 所有数据样本/特征向量组成的集合

X=(x1;x2;⋅⋅⋅;xn)X = (x_1; x_2; · · · ; x_n)X=(x1;x2;;xn),n 为数据样本个数

  • 标签(label): 对某个样本的某种标记

    xi→yi,yix_i → y_i,y_ixiyiyi = {−1; +1}/{0; 1}
    X=(x1;x2;⋅⋅⋅;xn)X = (x_1; x_2; · · · ; x_n)X=(x1;x2;;xn)Y=(y1;y2;⋅⋅⋅;yn)Y = (y_1; y_2; · · · ; y_n)Y=(y1;y2;;yn)
    D=(x1;y1);(x2;y2);⋅⋅⋅;(xn;yn)D = {(x_1; y_1); (x_2; y_2); · · · ; (x_n; y_n)}D=(x1;y1);(x2;y2);;(xn;yn)

  • (机器) 学习(machine learning): 从给定的数据集中学习出某种模型的算法

  • 训练集(training set),XtX_tXt: 数据集中用来学习模型的部分数据

  • 测试集(testing set),XsX_sXs: 数据集中用来测试学习到模型性能的部分数据,因此我们有:

    X=Xt+XsX = X_t + X_sX=Xt+Xs
    X=Xt+Xv+XsX = X_t + X_v + X_sX=Xt+Xv+Xs,Xv 为验证集, 常常用来调试学得的模型中某些参数

学习的分类

  1. 无监督学习(unsupervised learning): 学习过程中没有用到样本标签,即训练数据集XtX_tXt 不带标签

    eg:聚类(clustering)

  2. 有监督学习(supervised learning):学习过程中用到样本标签

    eg:分类(classification,离散)、回归(regression,连续)

  3. 半监督学习(semi-supervised learning):训练数据部分带标签,部分不带标签

  4. 强化学习(Reinforcement learning):强化学习的中心思想,就是让智能体在环境里学习。每个行动会对应各自的奖励,智能体通过分析数据来学习,怎样的情况下应该做怎样的事情。

模型的选择

拟合与误差

  • 欠拟合(under-fitting):学得的模型不足以描述数据分布。训练数据误差较大。模型过于简单。

  • 过拟合(over-fitting):学得的模型对训练数据过分匹配精确,导致无法适应新的数据测试。数据误差较大。

  • 训练误差(training error,也叫经验误差,empirical error):学习器在训练集上的误差。

  • 泛化误差(generalization error),在新样本上的误差。

评估方法

  • 留出法(hold-out):直接将XXX分解为两个不相交的集合,其中一个作为训练集,另一个作为测试集。常常将23−45\frac23-\frac453254的样本用于训练,其余用于测试。
  • 交叉验证(cross validation): 将数据集XXX分解为kkk个互补相交的子集,即X1∪X2∪⋅⋅⋅∪Xk=XX1 ∪X2∪· · ·∪Xk = XX1X2Xk=X。然后每次用k−1k − 1k1个子集训练,剩余一个做测试,最终返回k 个测试结果——kkk 折交叉验证。假定数据集XXX中包含mmm个样本若令k=mk=mk=m,则得到了交叉验证的一个特例留一法(Leave-One-Out,LOO)

错误率与精度

在分类任务中,精度和错误率是最常用的模型性能度量。现在假设数据集D={(x1;y1);(x2;y2);⋅⋅⋅;(xn;yn)}D =\{(x1; y1); (x2; y2); · · · ; (xn; yn)\}D={(x1;y1);(x2;y2);;(xn;yn)},学习得到的模型为f:x→yf : x → yf:xy

  • 错误率(分类错误的样本数占样本总数的比例):E(f;D)=1n∑inΠ(f(xi≠yi))E(f; D) = \frac1n\sum^n_i\varPi(f(xi\neq yi))E(f;D)=n1inΠ(f(xi=yi))
  • 精度(分类正确的样本数占样本总数的比例): acc(f;D)=1n∑inΠ(f(xi≠yi))=1−E(f;D)acc(f; D) = \frac1n \sum^n_i\varPi(f(xi\neq yi)) = 1 − E(f; D)acc(f;D)=n1inΠ(f(xi=yi))=1E(f;D)
    其中,Π\varPiΠ 代表一个指示函数。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值