统计学习方法 -概论

目录

一 机器学习定义

二 机器学习的应用领域

三 机器学习的发展历程

四 机器学习新方向

五 机器学习与数据挖掘的关系

六 机器学习相关学术期刊和会议

1 机器学习

2 数据挖掘

3 人工智能

4 数据库

七 统计学习与机器学习

1 研究方法差异

2 维度差异

八 统计学习

1 对象

2 目的

九 统计学习方法

A 监督学习

1 Instance 实例、feature vector 特征向量、feature space 特征空间

2 联合概率分布

3 假设空间 

4 问题的形式化

 B 无监督学习

C 强化学习 

1 无模型(model - free)

2 有模型(model - based)

D 半监督学习

E 主动学习

十 统计学习三要素

十一 模型评估与模型选择

十二 正则化与交叉验证

十三 泛化能力

十四 生成模型与判别模型

十五 分类问题

十六 标注问题

十七 回归问题


一 机器学习定义

        机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法

        机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。由于学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论

        算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法

二 机器学习的应用领域

  • 数据挖掘
  • 计算机视觉
  • 自然语言处理
  • 生物特征识别
  • 搜索引擎
  • 医学诊断
  • 检测信用卡欺诈
  • 证券市场分析
  • DNA序列预测
  • 语音和手写识别
  • 战略游戏
  • 机器人

三 机器学习的发展历程

  • “黑暗时代”,人工智能的诞生(1943~1956年)
  • Warren McCulloch和Walter Pitts1943年发表了人工智能领域的开篇之作,提出了人工神经网络模型
  • John von Neumann。他在1930年加入了普林斯顿大学,在数学物理系任教,和阿兰·图灵是同事
  • Marvin Minsky和Dean Edmonds建造第一台神经网络计算机
  • 1956年:John McCarthy从普林斯顿大学毕业后去达特茅斯学院工作,说服了Marvin Minsky和Claude Shannon在达特茅斯学院组织一个暑期研讨会,召集了对机器智能、人工神经网络和自动理论感兴趣的研究者,参加由IBM赞助的研讨会

四 机器学习新方向

  • 集成学习
  • 可扩展机器学习(对大数据集、高位数据的学习)
  • 强化学习
  • 迁移学习
  • 概率网络
  • 深度学习

五 机器学习与数据挖掘的关系

  • 机器学习是数据挖掘的重压工具
  • 数据挖掘不仅要研究、扩展、应用一些机器学习方法,还要通过许多非机器学习技术解决数据仓库、大规模数据、数据噪音等更为实际的问题
  • 机器学习的涉及面更宽,常用在数据挖掘上的方法通常只是“从数据学习”,然则机器学习不仅仅可以用在数据挖掘上,一些机器学习的子领域甚至与数据挖掘关系不大,例如增强学习与自动控制等等
  • 数据挖掘试图从海量数据中找出有用的知识

        数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据

六 机器学习相关学术期刊和会议

1 机器学习

  • 学术会议  NIPSICMLECMLCOLT
  • 学术期刊  《Machine Learning》《Journal of Machine Learning Research》

2 数据挖掘

  • 学术会议  SIGKDDICDMSDMPKDDPAKDD
  • 学术期刊  《Data Mining and Knowledge Discovery》《IEEE Transactions on Knowledge and Data Engineering》

3 人工智能

  • 学术会议  IJCAIAAAI

4 数据库

  • 学术会议  SIGMODVLDBICDE

 

 

 

七 统计学习与机器学习

1 研究方法差异

  • 统计学研究形式化和推导
  • 机器学习更容忍一些新方法

2 维度差异

  • 统计学强调低维空间问题的统计推导
  • 机器学习强调高维预测问题

八 统计学习

1 对象

计算机及互联网上的各种数字、文字、图像、视频、音频以及他们的组合

数据的基本假设是同类数据具有一定统计规律性

2 目的

对数据(特别是未知数据)进行预测和分析

九 统计学习方法

  • Supervised learning  -监督学习
  • Unsupervised learning  -无监督学习
  • Semi-supervised learning  -半监督学习
  • Reinforcement learning  -强化学习

A 监督学习

  • 训练数据 training data
  • 模型 model
  • 假设空间 hypothesis
  • 评价准则 evaluation criterion
  • 策略 strategy
  • 算法 algorithm

Instance 实例、feature vector 特征向量、feature space 特征空间

  • 输入实例x的特征向量

  • x(i)xi 不同,后者表示多个输入变量中的第i

  •  训练集

  • 输出变量与输入变量 

         分类问题、回归问题、标注问题

2 联合概率分布

  • 假设输入与输出的随机变量XY遵循联合概率分布P(X,Y)
  • P(X,Y)为分布函数或分布密度函数
  • 对于学习系统来说,联合概率分布是未知的,
  • 训练数据和测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的

3 假设空间 

  • 监督学习目的是学习一个由输入到输出的映射,称为模型
  • 模式的集合就是假设空间(hypothesis space
  • 概率模型:条件概率分布P(Y|X), 决策函数:Y=f(X)

4 问题的形式化

 B 无监督学习

  • 训练集

  • 模型函数

  • 条件概率分布

  • 问题转化

 

C 强化学习 

强化学习的马尔科夫决策过程是状态、奖励、动作序列上的随机过程,由五元组组成

  • 状态转移概率函数

  • 奖励函数

 

  • 策略π  给定状态下动作的函数

                   或者条件概率分布

 

  • 状态价值函数

  • 动作价值函数 

1 无模型(model - free)

  • 基于策略(policy-based) 求解最优策略π*
  • 基于价值(value-based) 求解最优价值函数

2 有模型(model - based)

  • 通过学习马尔可夫决策过程的模型,包括转移概率函数和奖励函数
  • 通过模型对环境的反馈进行预测
  • 求解价值函数最大的策略π

D 半监督学习

  • 少量标注数据,大量未标注数据
  • 利用未标注数据的信息,辅助标注数据,进行监督学习
  • 较低成本

E 主动学习

  • 机器主动给出实例,教师进行标注
  • 利用标注数据学习预测模型

按算法分类

  • 在线学习(online learning)
  • 批量学习(batch learning)

按技巧分类

  • 贝叶斯学习
  • 核方法

十 统计学习三要素

方法 = 模型 + 策略 + 算法

十一 模型评估与模型选择

  • 训练误差,训练集的平均损失
  • 测试误差,测试数据集的平均损失
  • 损失函数是 0-1 损失
  • 测试数据集的准确性
  • 过拟合与模型的选择
  • 假设给定的数据集
  • 经验风险最小

十二 正则化与交叉验证

  • 正则化一般形式
  • 归中问题

交叉验证

  • 训练集 用于训练模型
  • 验证集 用于模型的选择
  • 测试集 用于最终对学习方法的评估
  1. 简单交叉验证
  2. S折交叉验证
  3. 留一交叉验证

十三 泛化能力

  • 泛化误差
  • 泛化误差上界  样本容量增加,泛化误差趋向于0,假设空间容量越大,泛化误差越大
  • 二分类问题
  • 期望风险与经验风险
  • 经验风险最小化函数
  • 泛化能力

十四 生成模型与判别模型

监督学习的目的就是学习一个模型

  • 决策函数
  • 条件概率分布
  • 生成方法对应模型
  • 朴素贝叶斯法与马尔科夫模型
  • 判别方法由数据直接学习决策函数或条件概率分布作为预测的模型,即判别模型
  • K近邻法、感知机、决策树、logistics回归模型、最大熵模型、支持向量机、提升方法和条件随机场

各自优缺点

  • 生成方法  可还原出联合概率分布P(X,Y), 而判别方法不能。生成方法的收敛速度更快,当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;当存在隐变量时,仍可以使用生成方法,而判别方法则不能用
  • 判别方法  直接学习到条件概率或决策函数,直接进行预测,往往学习的准确率更高;由于直接学习Y=f(X)P(Y|X),可对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习过程

十五 分类问题

二分类问题的评价指标

  1. 精确率
  2. 召回率
  3. F1值

十六 标注问题

  • 标注
  • 结构预测
  • 输入 观测序列
  • 输出 标记序列或状态序列
  • 学习和标注两个过程
  • 训练集
  • 观测序列
  • 输出标记序列
  • 模型 条件概率分布

十七 回归问题

回归问题是表示从输入变量到输出变量之间映射的函数,回归问题的学习等价与函数的拟合

分为学习和预测两个阶段

回归学习最常使用的损失函数是平方损失函数,在此情况下,回归问题可以由最小二乘法求解

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

闻君一语

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值