统计学习方法-统计学习方法概论

这一系列的博客是对李航老师的《统计学习方法》的总结,算是个人的学习笔记吧,因为刚刚接触机器学习,对一些知识的理解可能会不到位,若有不严谨的地方,欢迎大家纠正,一起交流。



什么是统计学习

  • 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析与预测的一门学科。统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。当前提及的机器学习,往往指统计机器学习。

  • 统计学习的对象是数据。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。在统计学习的过程中,以变量或变量组表示数。数据分为由连续变量和离散变量表示的类型。

  • 统计学习用于对数据进行预测与分析,通过构建概率统计模型实现。统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。

  • 统计学习的方法包括监督学习半监督学习无监督学习强化学习

  • 实现统计学习方法的步骤如下:
    (1)得到一个有限的训练数据集合。
    (2)确定包含所有可能的模型的假设空间,即学习模型的集合。
    (3)确定模型选择的准则,即学习的策略。
    (4)实现求解最优模型的算法,即学习的算法。
    (5)通过学习方法选择最优模型。
    (6)利用学习的最优模型对新数据进行预测和分析。

  • 监督学习是使用已知正确答案的示例来训练网络的。例如,我们可以训练一个网络,让其从照片库中(其中包含你父母的照片)识别出你父母的照片。
  • 无监督学习适用于你具有数据集但无标签的情况。无监督学习采用输入集,并尝试查找数据中的模式。例如,将其组织成群(聚类)或查找异常值(异常检测)。例如,如果你是一个T恤制造商,拥有一堆人的身体测量值。那么你可能就会想要有一个聚类算法,以便将这些测量组合成一组集群,从而决定你生产的XS,S,M,L和XL号衬衫该有多大。
  • 半监督学习在训练阶段结合了大量未标记的数据和少量标签数据。与使用所有标签数据的模型相比,使用训练集的训练模型在训练时可以更为准确,而且训练成本更低。
  • 强化学习是针对你再次没有标注数据集的情况而言的,但你还是有办法来区分是否越来越接近目标(回报函数(reward function))。例如,我们常玩的猜数字游戏,当我们每猜一次数字时,都会得到一个反馈,告诉我们是猜大了还是猜小了,从而使下次的猜测更加逼近正确结果。

监督学习

监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。计算机的基本操作就是给定一个输入产生一个输出,所以监督学习是极其重要的统计学习分支。

基本概念

输入空间与输出空间:
在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间与输出空间。输入与输出空间可以是有限元素的集合,也可以是整个欧氏空间。输入空间与输出空间可以是同一个空间,也可以是不同的空间。但通常输出空间远远小于输入空间。
特征空间:
每个具体的输入是一个实例,通常由特征向量表示。这时,所有特征向量存在的空间称为特征空间。特征空间的每一维对应于一个特征。
监督学习从训练数据集合中学习模型,对测试数据进行预测。训练数据由输入与输出对组成,训练集通常表示为
T = {(x1,y1),(x2,y2),…,(xn,yn)}
测试数据也由相应的输入与输出对组成。输入与输出对又称为样本或样本点。
输入变量X和输出变量Y有不同的类型,可以是连续的,也可以是离散的。人们根据输入、输出变量的不同类型,对预测任务给予不同的名称:输入变量与输出变量均为连续变量的预测问题成为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量与输出变量均为变量序列的预测问题称为标注问题

联合概率分布:
监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值