机器学习基础词汇|小白10mins入门|西瓜书笔记

基本概念:

以实物西瓜为例

  • 数据集(data set):(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),······

  • 样本(sample):(色泽=青绿;根蒂=蜷缩;敲声=浊响)

  • 特征(feature)or 属性(attribute):“色泽”,“根蒂”,“敲声”

  • 属性值(attribute value):“青绿”,“蜷缩”,“浊响”

  • 属性空间(attribute space)or 输入空间:以“色泽”,“根蒂”,“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置。

  • 特征向量(feature vector):属性空间中的每个点对应着的一个坐标向量

以数学术语为例

  • 数据集: D = { x 1 , x 2 , . . . , x m } D=\{x_1, x_2,...,x_m\} D={x1,x2,...,xm},表示包含m个示例的数据集
  • 属性:有 d d d个属性,则每个示例 x i = ( x i 1 ; x i 2 ; . . . ; x i d ) x_i=(x_{i1};x_{i2};...;x_{id}) xi=(xi1;xi2;...;xid) d d d维样本空间 χ \chi χ中的一个向量,即 x i ∈ χ x_i \in \chi xiχ
  • 属性值: x i j x_{ij} xij x i x_i xi在第 j j j个属性上的取值
  • 维数(dimensionality): d d d x i x_i xi的维数

机器学习过程:

  • 第一步:找到或者逼近真相的规律

    • 训练(training):从数据中学得模型的过程,这个过程通过执行某个学习算法来完成
    • 训练数据(training data):训练过程中使用的数据
    • 训练样本(training sample):关于一个事件或对象的的每条记录
    • 训练集(training set):训练样本组成的集合
    • 假设(hypothesis):学得模型对应了关于数据的某种潜在的规律
    • 真相(ground-truth):潜在规律的自身,可理解为唯一规律
    • 学习器(learner):学习算法(有参数需要设置)在给定数据和参数空间上的实例化
  • 第二步:建立预测的模型

    • 预测(prediction):训练样本的“结果”信息

      e.g (色泽=青绿;根蒂=蜷缩;敲声=浊响) → \to (好瓜)

      ​ ((色泽=青绿;根蒂=蜷缩;敲声=浊响), (好瓜))

    • 标记(label):示例中的(好瓜),

    • 样例(example):拥有了标记信息的示例

    • 标记空间(label space)or 输出空间:所有标记的集合

    • 数学语言: ( x i , y i ) (x_i,y_i) (xi,yi)表示第i个样例,其中 y i ∈ γ y_i \in \gamma yiγ是示例 x i x_i xi的标记, γ \gamma γ是标记空间

  • 第三步:测试

    • 测试(training):学得模型后,用它进行预测的过程
    • 测试样本(training sample):被预测的样本
    • 过程:在学得模型 f f f后,对测试例 x x x,可得到其预测标记 y = f ( x ) y=f(x) y=f(x)

机器学习分类

  • 监督性学习:(supervised learning):代表类型有分类回归,有预测任务,即给定自变量 x x x,预测因变量 y y y

    • 分类(classification):针对预测的是离散值,如“好瓜”与“坏瓜”
      • 二分类(binary classification):只涉及两个类别分类,其中一个为“正类”(positive class),另一个为“负类”(negative class),通常令 γ = { − 1 , 1 } \gamma=\{-1,1\} γ={1,1}或者 γ = { 0 , 1 } \gamma=\{0,1\} γ={0,1}
      • 多分类(multi-class classification):涉及多个类别分类,通常令 ∣ γ ∣ > 2 |\gamma|>2 γ>2
      • 预测任务过程:通过对训练集 { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } \{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\} {(x1,y1),(x2,y2),...,(xm,ym)}进行学习,建立一个从输入空间 χ \chi χ到输出空间 γ \gamma γ的映射 f : χ → γ f:\chi \to \gamma f:χγ
    • 回归(regression):针对预测的是连续值,如西瓜成熟度0.95,0.37,0.21等,通常令 γ = R \gamma = R γ=R R R R为实数集
  • 非监督性学习:(unsupervised learning):代表类型有聚类

    • 聚类(clustering):将训练集中的西瓜分成若干组,每组称为一个“簇”(cluster),这些自动形成的簇分别对应不同的潜在概念,例如“浅色瓜”,“深色瓜”,“本地瓜”,“外地瓜”等等。
    • 特点:聚类学习中,“浅色瓜”,“深色瓜”,“本地瓜”,“外地瓜”等概念事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息

机器学习目标

  • 模型泛化(generalization)能力:使得学得的模型能很好地适用于“新样本”,而不是仅仅在训练样本上工作得很好,具有强泛化能力的模型能很好地适用于整个样本空间
  • 训练集通常只是样本空间的一个很小的采样,但我们仍然希望它很好地反映出样本空间的特性。
  • 通常假设样本空间中全体样本服从一个未知**“分布”(distribution) D D D,获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”**(independent and identically distributed,简称 i . i . d . i.i.d. i.i.d.)。一般,训练样本越多,得到的关于 D D D的信息越多,就越有可能通过学习获得具有强泛化能力的模型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值