统计学习 chapter2

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


一、统计学习

统计学习的定义:预测和分析
特点:各种理论

统计和机器学习的区别:

  1. 统计:线性回归,逻辑回归等(理论扎实,模型更容易解释和控制)模型可靠性。
  2. 机器学习:不知道中间的产生过程,预测效果好,但是可解释性差。

统计学习的研究对象是数据,同类数据具有一定的统计规律性,数据可以是离散的或者连续的,通过概率统计模型来实现的

统计学习:监督学习+无监督学习
假设空间: y = k x + b y=kx+b y=kx+b,例如 y = 0.8 x + 0.2 y=0.8x+0.2 y=0.8x+0.2
准则(策略):
算法实现:

具体步骤:

监督(有标签)
非监督(无标签)

重要性

二、统计学习的分类

  1. 基础分类
    监督学习
    (1) 输入空间、特征空间和输出空间
    输入空间映射到特征空间上
    输入变量为 X X X,输出变量为 Y Y Y,输入和输出变量的取值用小写字母表示,输入变量的取值写作 x x x,输出变量的取值写作 y y y,变量可以是标量也可以是向量,都用相同类型的字母表示。输入变量的实例的特征向量记作(按照文中的记法)
    x = ( x ( 1 ) , x ( 2 ) , ⋯   , x ( i ) , ⋯   , x ( n ) ) T x=(x^{(1)}, x^{(2)}, \cdots, x^{(i)}, \cdots, x^{(n)})^{T} x=(x(1),x(2),,x(i),,x(n))T表示的是数据 x ( i ) x^{(i)} x(i)的第 i i i个特征。
    此外, x i x_i xi表示多个输入变量中的 x x x的第 i i i个特征,
    x i = ( x i ( 1 ) , x i ( 2 ) , ⋯   , x i ( n ) ) T x_i=(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(n)})^T xi=(xi(1),xi(2),,xi(n))T
    那么 X X X可以表示为
    X = ( x 1 , x 2 , ⋯   , x N ) = ( x 1 ( 1 ) x 2 ( 1 ) ⋯ x N ( 1 ) x 1 ( 2 ) x 2 ( 2 ) ⋯ x N ( 2 ) ⋮ ⋮ ⋱ ⋮ x 1 ( n ) x 2 ( n ) ⋯ x N ( n ) ) X=(x_1, x_2, \cdots, x_N)= \begin{pmatrix} x_{1}^{(1)} & x_{2}^{(1)} & \cdots & x_{N}^{(1)} \\ x_{1}^{(2)} & x_{2}^{(2)} & \cdots & x_{N}^{(2)} \\ \vdots & \vdots & \ddots & \vdots \\ x_{1}^{(n)} & x_{2}^{(n)} & \cdots & x_{N}^{(n)} \end{pmatrix} X=(x1,x2,,xN)= x1(1)x1(2)x1(n)x2(1)x2(2)x2(n)xN(1)xN(2)xN(n)
    则输出数据对应也是 Y = ( y 1 , y 2 , ⋯   , y N ) T Y=(y_1, y_2, \cdots, y_N)^{T} Y=(y1,y2,,yN)T
    训练接通常表示为
    T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) } T = \{(x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N) \} T={(x1,y1),(x2,y2),,(xN,yN)}

这个是我自己的标记, \textcolor{red}{这个是我自己的标记,} 这个是我自己的标记,
x i = ( x i 1 , x i 2 , … , x i k ) T \textcolor{red}{x_i = (x_{i1}, x_{i2}, \ldots, x_{ik})^T} xi=(xi1,xi2,,xik)T
表示第 i 个数据的有 k 个特征,写成完整的数据如下 \textcolor{red}{表示第i个数据的有k个特征,写成完整的数据如下} 表示第i个数据的有k个特征,写成完整的数据如下
X = ( x 1 , x 2 , … , x n ) T = ( x 11 x 12 ⋯ x 1 k x 21 x 22 ⋯ x 2 k ⋮ ⋮ ⋱ ⋮ x n 1 x n 2 ⋯ x n k ) \textcolor{red}{ X = (x_1, x_2, \ldots, x_n)^T = \begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1k} \\ x_{21} & x_{22} & \cdots & x_{2k} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{nk} \end{pmatrix}} X=(x1,x2,,xn)T= x11x21xn1x12x22xn2x1kx2kxnk
此时 X 是一个 n × k 的矩阵。 \textcolor{red}{此时 X 是一个 n \times k 的矩阵。} 此时X是一个n×k的矩阵。

输入变量和输出变量均为连续变量称为回归问题,输出变量为离散的为分类问题

(2) 联合概率分布
P ( X , Y ) P(X, Y) P(X,Y) X X X Y Y Y联合概率分布就是监督学习关于数据的基本假设。

(3) 假设空间
输入到输出之间的映射,映射的集合就是假设空间。
监督学习可以由概率模型和非概率模型,条件概率分布和决策函数

(4)问题的形式化
表示为条件概率模型 P ^ ( Y ∣ X ) \hat{P}(Y|X) P^(YX)或决策函数 Y = f ^ ( X ) Y=\hat{f}(X) Y=f^(X)
得到的模型为 y N + 1 = arg min ⁡ y P ^ ( y ∣ x N + 1 ) y_{N+1} = \argmin_{y}\hat{P}(y|x_{N+1}) yN+1=argminyP^(yxN+1)或者 y N + 1 = f ^ ( x N + 1 ) y_{N+1}=\hat{f}(x_{N+1}) yN+1=f^(xN+1)给出相应的输出 y N + 1 y_{N+1} yN+1

(5)问题的形式化
利用贝叶斯定理,计算在给定数据条件下模型的条件概率,即后验概率,并用这个原理进行模型的估计,以及对数据的预测。将模型、未观测要素及其参数用变量表示,使用模型的先验分布是贝叶斯学习的特点。
假设随机变量 D D D表示数据,随机变量 θ \theta θ表示模型参数,根据贝叶斯定理,可以使用公式计算后验概率 P ( θ ∣ D ) = P ( θ ) P ( D ∣ θ ) P ( D ) P(\theta|D) = \frac{P(\theta)P(D|\theta)}{P(D)} P(θD)=P(D)P(θ)P(Dθ)其中 P ( θ ) P(\theta) P(θ)是先验概率, P ( D ∣ θ ) P(D|\theta) P(Dθ)是似然函数

三、统计学习的三要素

概述:方法=模型+策略+算法

  1. Model

  在监督学习中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含了所有的可能条件概率分布或决策函数。例如假设决策函数是输入变量的线性函数,那么模型的假设空间就是所有这些线性函数构成的函数组合。假设空间一般有无穷个。
  假设空间用 F F F表示,假设空间可以定义为决策函数的集合: F = { f ∣ Y = f ( X ) } 。 F=\{ f|Y=f(X) \}。 F={fY=f(X)} F F F通常是有一个参数向量决定的函数族
F = { f ∣ Y = f θ ( X ) , θ ∈ R n } F=\{ f|Y=f_{\theta}(X), \theta \in \mathbb{R}^n \} F={fY=fθ(X),θRn}
假设空间也可以是条件概率的集合:
F = { P ∣ P ( Y ∣ X ) } = { P ∣ P θ ( Y ∣ X ) , θ ∈ R n } F= \{ P|P(Y|X) \} = \{ P|P_{\theta}(Y|X), \theta \in \mathbb{R}^n \} F={PP(YX)}={PPθ(YX),θRn}

  1. Strategy
    学习方法按照特定的策略,学习或选择最优的模型。

(1)损失函数:
0-1损失函数:不同就记为1
平方损失函数:
绝对损失函数:
对数损失函数(对数似然损失函数): L ( Y , P ( Y ∣ X ) ) = − log ⁡ P ( Y ∣ X ) L(Y, P(Y|X)) = - \log P(Y|X) L(Y,P(YX))=logP(YX)
损失函数越小模型越好。所以损失函数的期望为
R exp ⁡ ( f ) = E P [ L ( X , f ( X ) ) ] = ∫ X × Y L ( x , f ( x ) ) P ( x , y ) d x d y R_{\exp}(f) = E_{P}[L(X, f(X))] = \int_{\mathcal{X} \times \mathcal{Y}}L(x, f(x))P(x,y)dxdy Rexp(f)=EP[L(X,f(X))]=X×YL(x,f(x))P(x,y)dxdy这是理论上模型 f ( X ) f(X) f(X)关于联合分布 P ( X , Y ) P(X,Y) P(X,Y)的平均意义下的损失,称为风险函数或期望损失。
  给定一个训练集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) } T = \{(x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N) \} T={(x1,y1),(x2,y2),,(xN,yN)},模型 f ( X ) f(X) f(X)关于训练集的平均损失称为经验风险(emppirical risk)或者经验损失(empirical loss),记作 R e m p R_{\mathrm{emp}} Remp
R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) R_{\mathrm{emp}} (f) = \frac{1}{N}\sum_{i=1}^{N} L (y_i, f(x_i)) Remp(f)=N1i=1NL(yi,f(xi))根据大数定律当样本容量 N N N趋于无穷时,经验风险趋于期望风险。所以一个很自然的想法就是用经验风险估计期望风险。但是由于现实中训练样本数目有限,所以经验风险估计期望风险并不理想,需要对经验风险进一步矫正。因为P(X,Y)不知道,知道就不需要估计了。

经验风险最小化和结构风险最小化
经验风险最小化
当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计
结构风险最小化
加上表示模型的复杂度
奥卡姆剃刀:如无必要,切勿假定繁多
最大后验概率估计就是结构风险最小化的例子
所以,当模型是条件概率分布,损失函数是对数损失函数,模型的复杂度有模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计。

监督学习问题就是经验风险或结构风险函数的最优化问题。这时经验或结构风险函数就是最优化的目标函数。

  1. Algotithm
    算法之学习模型的具体算法

  2. 项目

  3. 项目

    • 项目
  4. 项目1

  5. 项目2

  6. 项目3

  7. 计划任务

  8. 完成任务

前言

提示:这里可以添加本文要记录的大概内容:

例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。


提示:以下是本篇文章正文内容,下面案例可供参考

一、pandas是什么?

示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

二、使用步骤

1.引入库

代码如下(示例):

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.读入数据

代码如下(示例):

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。


总结

提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值