这一遍读的应该更细致(一天完成一章)
2019/9/20
目录
第一章:统计学习与监督学习概论
1.1 统计学习
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。也称为统计机器学习。
特点:
计算机加网络;数据驱动;目的是对数据进行预测分析;以方法为中心,构建和运用模型;交叉学科
对象:
数据。从数据出发,提取数据特征,抽取出数据模型,发现数据中的知识,又回到对数据的分析与预测中。
统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提,同类数据是指具有某种共同性质的数据。数据分为连续变量和离散变量表示的类型。
目的:
用于对数据的预测与分析,特别是对谓之心数据的预测与分析。通过构建概率统计模型实现。总的目标就是
考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。
方法:
基于 数据 构建 概率统计模型 对 数据 进行 预测 与 分析。由监督学习、无监督学习、强化学习等组成
1、得到一个有限的训练数据集合;
2、确定包含所有可能的模型的假设空间,即学习模型的集合;
3、确定模型选择的准则,即学习的策略;
4、实现求解最有模型的算法,即学习的算法;
5、通过学习方法选择最有模型;
6、利用习得的最优模型对新数据进行预测或分析
(Model, Goodness of function, Best function)
1.2 统计学习的分类
一般包括 监督学习、无监督学习、强化学习。有时还包括半监督学习、主动学习。
1.2.1 基本分类
1、监督学习
指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。
(1) 输入空间:输入的所有可能取值的集合
输出空间:输出的所有可能取值的集合
特征空间:每个具体的输入是一个instance,通常由feature vector表示。所有的feature vector 存在的空间叫feature space。特征空间的每一位对应于一个特征。
(2) 联合概率分布:监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)。P(X,Y)表示分布函数,或分布密度函数。训练数据和测试数据被看作是依P(X,Y)独立同分布产生的。统计学习假设数据存在一定的统计规律,X和Y具有联合概率分布就是监督学习关于数据的基本假设。
(3) 假设空间:模型属于输入空间到输出空间的映射集合,这个集合就是假设空间。即学习的范围的确定。(a set of function)。监督学习的模型可以是概率模型或非概率模型,由条件概率分布P(X,Y)或决策函数Y=f(x)表示。对具体的输入进行相应的输出预测时,写作P(y|x) 或 y = f(x)
(4)问题形式化:监督学习分为学习和预测两个过程
2、无监督学习
指从无标注数据中学习预测模型的机器学习问题。本质是学习数据中的统计规律或潜在结构
输入是一个实例,由特征向量表示。每一个输出是对输入的分析结果,由输入的类别、转换或概率表示。模型可以实现对数据的聚类、降维或概率估计
3、强化学习
Reinforcement Learning是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境