第一章 统计学习方法概论


Class Content
layout post
title 第一章 统计学习方法概论
categories Course
description: 李航 《统计学习方法》的学习, 主要介绍基本概念,详细叙述了监督学习,提出统计学习的三要素:模型\策略\算法,另外还介绍了模型选择:包括正则化\交叉验证与学习的泛化能力,此外还介绍了生成模型和判别模型.
keywords 监督学习 模型三要素 模型选择 生成模型 判别模型

1.1 统计学习

a. ~概念:

又叫统计机器学习,人们提到的机器学习往往指统计机器学习, 它是利用计算机对数据构建的概论统计模型,并运行模型对新的数据进行预测和分析

b. ~特点:
(1)平台[计算机及网络] ;
(2)对象:数据;
(3)目的:分析和预测;
(4)中心:统计学习方法;
(5)多领域交叉[概率论\统计学\信息论\最优化\计算理论\计算机科学等]

c. ~前提假设:

同一类数据具有一定的统计规律性[因为它具有统计规律,所以可以用概率统计的方法进行处理,eg 用随机变量描述数据的特征,概论分布描述数据的统计规律]

d. ~方法:

统计学习方法可以分为: 监督学习\非监督学习\半监督学习\强化学习等

e. 统计学习方法三要素:

方法 = 模型+策略+算法

模型: 这里不再赘述
策略: 按照什么准则学习或者选择最优模型,引用了损失函数(loss function)与风险函数(risk function),详细介绍见博文《详解机器学习中的损失函数和风险函数》.
算法:学习模型的具体计算方法,根据学习策略从假设空间中选择最优模型,最后需要考虑用什么方法计算最优模型,转化为最优化问题,可能出现有显式的解析解,也可能需要用数值计算的方法进行求解.

注: 假设训练集和测试集数据是独立同分布产生的

f. ~步骤:
- 得到一个有限的训练数据集合;
- 确定包含所有可能的模型的假设空间,即学习模型的集合;
- 确定模型选择的准则,即学习的策略;
- 实现求解最优模型的算法,即学习的算法;
- 通过学习选择最优模型;
- 利用学习的最优模型对新数据进行分析和预测.

g. ~重要性 : 统计学习是处理海量数据最强有力的工具,是计算机智能化的有效手段.


1.2 监督学习

a. 监督学习概念:

是统计学习的方法之一, 它是学习一个模型,使得模型能对任意给定的输入,对其相应的输出做出一个好的预测. [最好的判断方式是看它是否有标签]

b. 输入空间\特征空间\输出空间:

输入与输出所有可能的取值的集合称为输入空间与输出空间,通常输出空间小于输入空间.特征空间表示所有特征存在的空间,而模型实际上是定义在特征空间上的.

c.训练集和测试集的表示:

XX表示输入随机变量, Y 表示输出随机变量,xx y 是定义在输入和输出空间上随机变量的取值.
训练集: Train={ (x1,y1),(x2,y2),...,(xn,yn)}Train={ (x1,y1),(x2,y2),...,(xn,yn)}
测试集: Test={ (x1,y1),(x2,y2),...,(xn,yn)}Test={ (x1∗,y1∗),(x2∗,y2∗),...,(xn∗,yn∗)}
输入和输出对又称为样本或样本点

d. 不同预测任务的名称:

输入变量和输出变量均为连续的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量和输出变量均为变量序列的预测问题被称为标注问题.

注: 对于标注问题,目前还没有做过类似的项目,初步理解如下:
标注问题:

  • 输入序列: xi=(x(1)i,x(2)i,...,x(n)i)T,i=1,...,Nxi=(xi(1),xi(2),...,xi(n))T,i=1,...,N
  • 输出标记序列: yi=(y(1)i,y(2)i,...,y(n)i)T,i=1,...,Nyi=(yi(1),yi(2),...,yi(n))T,i=1,...,N
    其中nn为序列长度,不同的样本可以有不同的长度
  • 条件概率分布为:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值