目录
1 Instance 实例、feature vector 特征向量、feature space 特征空间
一 机器学习定义
机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法
机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。由于学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论
算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法
二 机器学习的应用领域
- 数据挖掘
- 计算机视觉
- 自然语言处理
- 生物特征识别
- 搜索引擎
- 医学诊断
- 检测信用卡欺诈
- 证券市场分析
- DNA序列预测
- 语音和手写识别
- 战略游戏
- 机器人
三 机器学习的发展历程
- “黑暗时代”,人工智能的诞生(1943年~1956年)
- Warren McCulloch和Walter Pitts在1943年发表了人工智能领域的开篇之作,提出了人工神经网络模型
- John von Neumann。他在1930年加入了普林斯顿大学,在数学物理系任教,和阿兰·图灵是同事
- Marvin Minsky和Dean Edmonds建造第一台神经网络计算机
- 1956年:John McCarthy从普林斯顿大学毕业后去达特茅斯学院工作,说服了Marvin Minsky和Claude Shannon在达特茅斯学院组织一个暑期研讨会,召集了对机器智能、人工神经网络和自动理论感兴趣的研究者,参加由IBM赞助的研讨会
四 机器学习新方向
- 集成学习
- 可扩展机器学习(对大数据集、高位数据的学习)
- 强化学习
- 迁移学习
- 概率网络
- 深度学习
五 机器学习与数据挖掘的关系
- 机器学习是数据挖掘的重压工具
- 数据挖掘不仅要研究、扩展、应用一些机器学习方法,还要通过许多非机器学习技术解决数据仓库、大规模数据、数据噪音等更为实际的问题
- 机器学习的涉及面更宽,常用在数据挖掘上的方法通常只是“从数据学习”,然则机器学习不仅仅可以用在数据挖掘上,一些机器学习的子领域甚至与数据挖掘关系不大,例如增强学习与自动控制等等
- 数据挖掘试图从海量数据中找出有用的知识
数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据
六 机器学习相关学术期刊和会议
1 机器学习
- 学术会议 NIPS、ICML、ECML和COLT,
- 学术期刊 《Machine Learning》和《Journal of Machine Learning Research》
2 数据挖掘
- 学术会议 SIGKDD、ICDM、SDM、PKDD和PAKDD
- 学术期刊 《Data Mining and Knowledge Discovery》和《IEEE Transactions on Knowledge and Data Engineering》
3 人工智能
- 学术会议 IJCAI和AAAI
4 数据库
- 学术会议 SIGMOD、VLDB、ICDE
七 统计学习与机器学习
1 研究方法差异
- 统计学研究形式化和推导
- 机器学习更容忍一些新方法
2 维度差异
- 统计学强调低维空间问题的统计推导
- 机器学习强调高维预测问题
八 统计学习
1 对象
计算机及互联网上的各种数字、文字、图像、视频、音频以及他们的组合
数据的基本假设是同类数据具有一定统计规律性
2 目的
对数据(特别是未知数据)进行预测和分析
九 统计学习方法
- Supervised learning -监督学习
- Unsupervised learning -无监督学习
- Semi-supervised learning -半监督学习
- Reinforcement learning -强化学习
A 监督学习
- 训练数据 training data
- 模型 model
- 假设空间 hypothesis
- 评价准则 evaluation criterion
- 策略 strategy
- 算法 algorithm
1 Instance 实例、feature vector 特征向量、feature space 特征空间
- 输入实例x的特征向量
- x(i)与xi 不同,后者表示多个输入变量中的第i个
- 训练集
- 输出变量与输入变量
分类问题、回归问题、标注问题
2 联合概率分布
- 假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)
- P(X,Y)为分布函数或分布密度函数
- 对于学习系统来说,联合概率分布是未知的,
- 训练数据和测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的
3 假设空间
- 监督学习目的是学习一个由输入到输出的映射,称为模型
- 模式的集合就是假设空间(hypothesis space)
- 概率模型:条件概率分布P(Y|X), 决策函数:Y=f(X)
4 问题的形式化
B 无监督学习
- 训练集
- 模型函数
- 条件概率分布
- 问题转化
C 强化学习
强化学习的马尔科夫决策过程是状态、奖励、动作序列上的随机过程,由五元组组成
- 状态转移概率函数
- 奖励函数
- 策略π 给定状态下动作的函数
或者条件概率分布
- 状态价值函数
- 动作价值函数
1 无模型(model - free)
- 基于策略(policy-based) 求解最优策略π*
- 基于价值(value-based) 求解最优价值函数
2 有模型(model - based)
- 通过学习马尔可夫决策过程的模型,包括转移概率函数和奖励函数
- 通过模型对环境的反馈进行预测
- 求解价值函数最大的策略π
D 半监督学习
- 少量标注数据,大量未标注数据
- 利用未标注数据的信息,辅助标注数据,进行监督学习
- 较低成本
E 主动学习
- 机器主动给出实例,教师进行标注
- 利用标注数据学习预测模型
按算法分类
- 在线学习(online learning)
- 批量学习(batch learning)
按技巧分类
- 贝叶斯学习
- 核方法
十 统计学习三要素
方法 = 模型 + 策略 + 算法
十一 模型评估与模型选择
- 训练误差,训练集的平均损失
- 测试误差,测试数据集的平均损失
- 损失函数是 0-1 损失
- 测试数据集的准确性
- 过拟合与模型的选择
- 假设给定的数据集
- 经验风险最小
十二 正则化与交叉验证
- 正则化一般形式
- 归中问题
交叉验证
- 训练集 用于训练模型
- 验证集 用于模型的选择
- 测试集 用于最终对学习方法的评估
- 简单交叉验证
- S折交叉验证
- 留一交叉验证
十三 泛化能力
- 泛化误差
- 泛化误差上界 样本容量增加,泛化误差趋向于0,假设空间容量越大,泛化误差越大
- 二分类问题
- 期望风险与经验风险
- 经验风险最小化函数
- 泛化能力
十四 生成模型与判别模型
监督学习的目的就是学习一个模型
- 决策函数
- 条件概率分布
- 生成方法对应模型
- 朴素贝叶斯法与马尔科夫模型
- 判别方法由数据直接学习决策函数或条件概率分布作为预测的模型,即判别模型
- K近邻法、感知机、决策树、logistics回归模型、最大熵模型、支持向量机、提升方法和条件随机场
各自优缺点
- 生成方法 可还原出联合概率分布P(X,Y), 而判别方法不能。生成方法的收敛速度更快,当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;当存在隐变量时,仍可以使用生成方法,而判别方法则不能用
- 判别方法 直接学习到条件概率或决策函数,直接进行预测,往往学习的准确率更高;由于直接学习Y=f(X)或P(Y|X),可对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习过程
十五 分类问题
二分类问题的评价指标
- 精确率
- 召回率
- F1值
十六 标注问题
- 标注
- 结构预测
- 输入 观测序列
- 输出 标记序列或状态序列
- 学习和标注两个过程
- 训练集
- 观测序列
- 输出标记序列
- 模型 条件概率分布
十七 回归问题
回归问题是表示从输入变量到输出变量之间映射的函数,回归问题的学习等价与函数的拟合
分为学习和预测两个阶段
回归学习最常使用的损失函数是平方损失函数,在此情况下,回归问题可以由最小二乘法求解