一.机器学习
1.机器学习形式化定义
- 明确指明了任务T
- 评价任务的性能的度量指标P
- 用于改善任务性能的经验E
例:人脸识别、手写数字识别
2.机器学习的流程
数据——机器学习——模型——模型验证——使用
二.机器学习的概念
(1)基本概念与术语
- 1.样本:所研究对象的一个个体,相当于统计学中的实例
- 2.特征:属性
- 例:不同水果的分类:可知的是周长、面积、红、绿、蓝颜色5个原始特征,希望用形状来进行分类,关键是怎样用基本的5个特征来描述形状
这个过程叫特征提取 - 怎样算呢?
(4π*S)/L^2,这个值越趋近于1,说明是圆形的概率越大
- 例:不同水果的分类:可知的是周长、面积、红、绿、蓝颜色5个原始特征,希望用形状来进行分类,关键是怎样用基本的5个特征来描述形状
- 3.特征空间、样本空间、属性空间、输入空间
- 高位空间低维可视化
- 来自d维特征空间的特征向量
- 4.样本集(数据集)
- 5.类别与类别标签
- 6.标记空间、输出空间
- 7.已知样本:考研模拟题
- 8.未知样本:考研真题
- 9.训练样本、训练样本集、估计集
- 训练样本用于模型训练
- 10.测试样本、测试样本集
- 测试样本要已知正确的标签结果
- 11.估计集、验证集
- K近邻模型:K是超参数,K选择的过程是模型的选择过程。
- 神经网络:要先确定神经网络的层数和每一层结点的数量是这个模型的超参数,结点间连接的权值是参数
- 用估计集来用于每一个备选的模型,用验证集来验证估计集的结果,这两个集合是在模型学习之前使用的
- 12.独立同分布:
- 我们想要的是类别均衡的样本
- 每一个样本的观测都会独立于其他样本的观测,不能相互影响。这叫独立
- 这些样本的观测和预测应分布同一,即用一套体系,这是同分布
- 例:国内外写的数字不同,用外国的数据集训练的模型,用国内的手写数字测试,1、4、7很容易出错,这就是没有独立同分布
(2)机器学习的典型任务
-
1.分类
- 模型的预测结果为事先指定的两个或多个类别中的某一个,或预测结果来自数目有限的离散值之一
- 两类别与多类别
- 两类别分类:类别数目是两个
- 是与非的两类别分类问题
- 非对称的分类问题
- 多分类:多个类别
- 两类别分类:类别数目是两个
- 产生式分类模型与鉴别式分类模型
- 产生式:贝叶斯分类
- 鉴别式:关注边界,线性分类模型、非线性分类模型
-
2.回归
- 基本理解:实值函数的回归,预测输出为连续的实数值,可以理解为要整出来个预测的函数
- 线性映射与非线性映射
- 回归的值不一定是一个结果,可以是多个不同类的结果
-
分类与回归的区别
- 分类:
- 以二分类为例,相当于是给训练样本集画一条线,确定一个边界,把特征空间分成两部分
- 分类模型的目标是对特征空间进行划分
- 回归:
- 相当于“搞出来”一个函数,使这个函数能尽可能对应到训练集的输入、输出
- 回归模型的目标是得到输入空间与输出空间的映射关系,对特征空间中的X都能得到一个对应的输出
- 分类:
-
3.聚类
- 尝试对数据集进行划分,产生一些子集,其实就是对特征空间打标签的过程
- 划分子集的数目就是这个模型的一个超参数
- 原则:簇内样本差异小,簇间样本差异大
- 这个打标签的过程可以认为是分类任务的前奏过程,先进性打标签划分,对已知标签再进行分类
- 而分类可以理解为划线的过程,它可能只有一个边界;聚类是画圈的过程,要把整体都包上
-
4.特征降维与低维可视化
- 特征提取:把高维的特征经过特征提取的手段进行降维提取
-
5.其他学习任务:
- 排序:搜索引擎,查询结果产生顺序
- 关联分析:尿布啤酒关联分析
- 密度估计:概率、特征工程特征降维
- 异常检测:类别不均衡的分类问题
- 药厂药瓶检测
- 空调压缩机电路板焊点检测
例:目标检测
- 检测我感兴趣的目标是不是存在
- 目标检测涉及到分类问题,已知类别标签来区别不同类别
- 对于目标图像的选框,这涉及到边框的回归问题
三.机器学习的学习范式
- 1.监督式学习
- 基于已知标签来学习预测的模型
- 面向分类、回归模型
- 2.非监督式学习
- 基于无标签样本学习模型,基于学得的模型对未知样本做预测
- 3.强化学习
- 以试错方式,结合奖惩机制,使智能体学得当前环境状态到行为的映射
- 机器下棋、机器写诗
- 4.其他学习
- 半监督学习:少量有标签样本(高成本)、大量无标签(低成本)
- 迁移学习:
- 借用已经写好的模型,把靠近输入层的部分固定
- 比如我之前有一个学习模型,又来了一个新的任务,二者类似,我可以直接用原来的模型,收集少量的新任务的数据来学习模型,这可以大大节省时间
四.假设与假设空间
- 1.假设:每一个模型就是一个假设
- 2.假设空间:所有假设的集合
- 3.版本空间:假设空间的子集,多个假设与训练集一致 这些假设组成了版本空间
- 4.假设的选择:
-
“奥克姆剃刀”准则:若多个假设与经验观测一致,则选择最简单的那个
-
简单模型的泛化能力不会比复杂模型差
-
适用于单个模型的选择与学习
-
“多释准则”:集成的智慧,专家的评审
-
类似于集成学习,多个模型的综合使用
-
未完待续