人工智能基础02——机器学习简介1

一.机器学习

1.机器学习形式化定义

  • 明确指明了任务T
  • 评价任务的性能的度量指标P
  • 用于改善任务性能的经验E

例:人脸识别、手写数字识别

2.机器学习的流程

数据——机器学习——模型——模型验证——使用

二.机器学习的概念

(1)基本概念与术语

  • 1.样本:所研究对象的一个个体,相当于统计学中的实例
  • 2.特征:属性
    • 例:不同水果的分类:可知的是周长、面积、红、绿、蓝颜色5个原始特征,希望用形状来进行分类,关键是怎样用基本的5个特征来描述形状
      这个过程叫特征提取
    • 怎样算呢?
      (4π*S)/L^2,这个值越趋近于1,说明是圆形的概率越大
  • 3.特征空间、样本空间、属性空间、输入空间
    • 高位空间低维可视化
    • 来自d维特征空间的特征向量
  • 4.样本集(数据集)
  • 5.类别与类别标签
  • 6.标记空间、输出空间
  • 7.已知样本:考研模拟题
  • 8.未知样本:考研真题
  • 9.训练样本、训练样本集、估计集
    • 训练样本用于模型训练
  • 10.测试样本、测试样本集
    • 测试样本要已知正确的标签结果
  • 11.估计集、验证集
    • K近邻模型:K是超参数,K选择的过程是模型的选择过程。
    • 神经网络:要先确定神经网络的层数和每一层结点的数量是这个模型的超参数,结点间连接的权值是参数
    • 用估计集来用于每一个备选的模型,用验证集来验证估计集的结果,这两个集合是在模型学习之前使用的
  • 12.独立同分布:
    • 我们想要的是类别均衡的样本
    • 每一个样本的观测都会独立于其他样本的观测,不能相互影响。这叫独立
    • 这些样本的观测和预测应分布同一,即用一套体系,这是同分布
    • 例:国内外写的数字不同,用外国的数据集训练的模型,用国内的手写数字测试,1、4、7很容易出错,这就是没有独立同分布

(2)机器学习的典型任务

  • 1.分类

    • 模型的预测结果为事先指定的两个或多个类别中的某一个,或预测结果来自数目有限的离散值之一
    • 两类别与多类别
      • 两类别分类:类别数目是两个
        • 是与非的两类别分类问题
        • 非对称的分类问题
      • 多分类:多个类别
    • 产生式分类模型与鉴别式分类模型
      • 产生式:贝叶斯分类
      • 鉴别式:关注边界,线性分类模型、非线性分类模型
  • 2.回归

    • 基本理解:实值函数的回归,预测输出为连续的实数值,可以理解为要整出来个预测的函数
    • 线性映射与非线性映射
    • 回归的值不一定是一个结果,可以是多个不同类的结果
  • 分类与回归的区别

    • 分类:
      • 以二分类为例,相当于是给训练样本集画一条线,确定一个边界,把特征空间分成两部分
      • 分类模型的目标是对特征空间进行划分
    • 回归:
      • 相当于“搞出来”一个函数,使这个函数能尽可能对应到训练集的输入、输出
      • 回归模型的目标是得到输入空间与输出空间的映射关系,对特征空间中的X都能得到一个对应的输出
  • 3.聚类

    • 尝试对数据集进行划分,产生一些子集,其实就是对特征空间打标签的过程
    • 划分子集的数目就是这个模型的一个超参数
    • 原则:簇内样本差异小,簇间样本差异大
    • 这个打标签的过程可以认为是分类任务的前奏过程,先进性打标签划分,对已知标签再进行分类
    • 而分类可以理解为划线的过程,它可能只有一个边界;聚类是画圈的过程,要把整体都包上
  • 4.特征降维与低维可视化

    • 特征提取:把高维的特征经过特征提取的手段进行降维提取
  • 5.其他学习任务:

    • 排序:搜索引擎,查询结果产生顺序
    • 关联分析:尿布啤酒关联分析
    • 密度估计:概率、特征工程特征降维
    • 异常检测:类别不均衡的分类问题
      • 药厂药瓶检测
      • 空调压缩机电路板焊点检测

例:目标检测

  • 检测我感兴趣的目标是不是存在
  • 目标检测涉及到分类问题,已知类别标签来区别不同类别
  • 对于目标图像的选框,这涉及到边框的回归问题

三.机器学习的学习范式

  • 1.监督式学习
    • 基于已知标签来学习预测的模型
    • 面向分类、回归模型
  • 2.非监督式学习
    • 基于无标签样本学习模型,基于学得的模型对未知样本做预测
  • 3.强化学习
    • 以试错方式,结合奖惩机制,使智能体学得当前环境状态到行为的映射
    • 机器下棋、机器写诗
  • 4.其他学习
    • 半监督学习:少量有标签样本(高成本)、大量无标签(低成本)
    • 迁移学习:
      • 借用已经写好的模型,把靠近输入层的部分固定
      • 比如我之前有一个学习模型,又来了一个新的任务,二者类似,我可以直接用原来的模型,收集少量的新任务的数据来学习模型,这可以大大节省时间

四.假设与假设空间

  • 1.假设:每一个模型就是一个假设
  • 2.假设空间:所有假设的集合
  • 3.版本空间:假设空间的子集,多个假设与训练集一致 这些假设组成了版本空间
  • 4.假设的选择:
    • “奥克姆剃刀”准则:若多个假设与经验观测一致,则选择最简单的那个

    • 简单模型的泛化能力不会比复杂模型差

    • 适用于单个模型的选择与学习

    • “多释准则”:集成的智慧,专家的评审

    • 类似于集成学习,多个模型的综合使用

未完待续

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值