第一章统计学习方法概论(一)统计学习及监督学习

本文介绍了统计学习的基础概念,包括统计学习的定义、特点及其组成部分。重点讲解了监督学习的概念、基本流程与假设,并探讨了输入空间、输出空间、特征空间等关键概念。

1.1统计学习

统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习。统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。

统计机器学习的主要特点是:(1)统计学习以计算机及网络为平台,是建立在计算机及网络上的;(2)统计学习以数据为研究对象,是数据驱动的学科。(3)统计学习的目的是对数据进行预测与分析(4)统计学习以方法为中心,统计方法构建模型并应用模型进行预测与分析(5)统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。

统计学习的对象是数据。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。由于数据具有统计规律性,所以可以用概率统计的方法来加以处理。比如,可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律。

统计学习用于对数据进行预测与分析,特别是对未知新数据进行预测与分析。对数据的预测与分析是通过构建概率统计模型实现的。统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能够对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。

统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析。统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。

监督学习的情况下,统计学习的方法概括如下:从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间;应用某个评价准则,从假设空间中选取一个最优的模型,使它对已知训练数据及未知测试数据在给定的评价准则下有最优的预测;最优模型的选取由算法实现。这样,统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法,称其为统计学习方法的三要素,简称为模型、策略和算法。

实现统计学习方法的步骤如下:

(1)得到一个有限的训练数据集合

(2)确定包含所有可能的模型的假设空间,即学习模型的集合。

(3)确定模型选择的准则、即学习的策略

(4)实现求解最优模型的算法,即学习的算法

(5)通过学习方法选择最优模型

(6)利用学习的最优模型对新数据进行预测或分析

 

统计学习研究一般包括统计学习方法、统计学习理论及统计学习应用三个方面,统计学习方法的研究旨在开发新的学习算法;统计学习理论的研究在于探究统计学习方法的有效性与效率,以及统计学习的基本理论问题;统计学习应用的研究主要考虑将统计学习方法应用到实际问题中去,解决实际问题。

1.2监督学习

统计学习包括监督学习、非监督学习、半监督学习及强化学习。

监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做一个好的预测。监督学习是极其重要的统计学习分值,也是统计学习中内容最丰富、应用最广泛的部分。

1.2.1基本概念

在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间与输出空间。输入与输出空间可以是有限元素的集合,也可以是整个欧式空间。输入和输出空间可以是有限元素的集合,也可以说是整个欧式空间。输入空间与输出空间可以是同一个空间,也可以是不同的空间;但通常输出空间远远小于输入空间。

每个具体的输入是一个实例,通常是由特征向量表示。这时,所有特征向量存在的空间称为特征空间。这时,所有特征向量存在的空间称为特征空间。特征空间的每一维对应一个特征,有时假设输入空间与特征空间为相同的空间,对它们不予区分;有时假设输入空间与特征空间为不同的空间,将实例从输入空间映射到特征空间,模型实际上都是定义在特征空间上的。

在监督学习过程中,将输入与输出看作是定义在输入(特征)空间与输出空间上的随机变量的取值。测试数据也由相应的输入与输出对组成。输入与输出对又称为样本或样本点。

输入变量X和输出变量Y有不同的类型,可以是连续的,也可以是离散的。人们根据输入、输出变量的不同类型,对预测任务给予不同的名称;输入变量与输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量与输出变量均为变量序列的预测问题称为标注问题。

联合概率分布

监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y).P(X,Y)表示分布函数,或分布密度函数。注意,在学习过程中,假定这一联合概率分布存在,但对学习系统来说,联合概率分布的具体定义是未知的。训练数据与测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。统计学习假设数据存在一定的统计规律,X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设。

监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。换句话说,学习的目的在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。假设空间的确定意味着学习范围的确定。

监督学习的模型可以是概率图模型或非概率图模型,由条件概率分布P(Y|X)或决策函数Y=f(x)表示,随具体学习方法而定。对具体的输入进行相应的输出预测时,写作P(y|x)或y=f(x)。

监督学习中,假设训练数据与测试数据是依概率联合分布P(X,Y)独立同分布产生的。

在学习过程中,学习系统利用给定的训练数据集,通过学习(或训练)得到一个模型,表示为条件概率分布或决策函数。条件概率分布或决策函数描述输入与输出随机变量之间的映射关系。

在预测过程中,预测系统对于给定的测试样本集的输入,由模型给出相应的输出



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值