统计学习 chapter2

最新推荐文章于 2026-01-06 08:38:59 发布

原创最新推荐文章于 2026-01-06 08:38:59 发布 · 828 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#学习

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

一、统计学习
二、统计学习的分类
三、统计学习的三要素
前言
一、pandas是什么？
二、使用步骤
- 1.引入库
- 2.读入数据
总结

一、统计学习

统计学习的定义：预测和分析
特点：各种理论

统计和机器学习的区别：

统计：线性回归，逻辑回归等（理论扎实，模型更容易解释和控制）模型可靠性。
机器学习：不知道中间的产生过程，预测效果好，但是可解释性差。

统计学习的研究对象是数据，同类数据具有一定的统计规律性，数据可以是离散的或者连续的，通过概率统计模型来实现的

统计学习：监督学习+无监督学习
假设空间： $y = k x + b$ ，例如 $y = 0.8 x + 0.2$
准则（策略）：
算法实现：

具体步骤：

监督（有标签）
非监督（无标签）

重要性

二、统计学习的分类

基础分类
监督学习
(1) 输入空间、特征空间和输出空间
输入空间映射到特征空间上
输入变量为 $X$ ，输出变量为 $Y$ ，输入和输出变量的取值用小写字母表示，输入变量的取值写作 $x$ ，输出变量的取值写作 $y$ ，变量可以是标量也可以是向量，都用相同类型的字母表示。输入变量的实例的特征向量记作(按照文中的记法)
$x=(x^{(1)}, x^{(2)}, \cdots, x^{(i)}, \cdots, x^{(n)})^{T}$ 表示的是数据 $x^{(i)}$ 的第 $i$ 个特征。
此外， $x_i$ 表示多个输入变量中的 $x$ 的第 $i$ 个特征，
$x_i=(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(n)})^T$
那么 $X$ 可以表示为
$X=(x_1, x_2, \cdots, x_N)= \begin{pmatrix} x_{1}^{(1)} & x_{2}^{(1)} & \cdots & x_{N}^{(1)} \\ x_{1}^{(2)} & x_{2}^{(2)} & \cdots & x_{N}^{(2)} \\ \vdots & \vdots & \ddots & \vdots \\ x_{1}^{(n)} & x_{2}^{(n)} & \cdots & x_{N}^{(n)} \end{pmatrix}$
则输出数据对应也是 $Y=(y_1, y_2, \cdots, y_N)^{T}$ 。
训练接通常表示为
$\{(x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N) \}$

$\textcolor{red}{这个是我自己的标记，}$
$\textcolor{red}{x_i = (x_{i1}, x_{i2}, \ldots, x_{ik})^T}$
$\textcolor{red}{表示第i个数据的有k个特征，写成完整的数据如下}$
$\textcolor{red}{ X = (x_1, x_2, \ldots, x_n)^T = \begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1k} \\ x_{21} & x_{22} & \cdots & x_{2k} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{nk} \end{pmatrix}}$
$\textcolor{red}{此时 X 是一个 n \times k 的矩阵。}$

输入变量和输出变量均为连续变量称为回归问题，输出变量为离散的为分类问题

(2) 联合概率分布
$P (X, Y)$ ， $X$ 和 $Y$ 联合概率分布就是监督学习关于数据的基本假设。

(3) 假设空间
输入到输出之间的映射，映射的集合就是假设空间。
监督学习可以由概率模型和非概率模型，条件概率分布和决策函数

(4)问题的形式化
表示为条件概率模型 $\hat{P}(Y|X)$ 或决策函数 $Y=\hat{f}(X)$
得到的模型为 $y_{N+1} = \argmin_{y}\hat{P}(y|x_{N+1})$ 或者 $y_{N+1}=\hat{f}(x_{N+1})$ 给出相应的输出 $y_{N+1}$ 。

(5)问题的形式化
利用贝叶斯定理，计算在给定数据条件下模型的条件概率，即后验概率，并用这个原理进行模型的估计，以及对数据的预测。将模型、未观测要素及其参数用变量表示，使用模型的先验分布是贝叶斯学习的特点。
假设随机变量 $D$ 表示数据，随机变量 $\theta$ 表示模型参数，根据贝叶斯定理，可以使用公式计算后验概率 $P(\theta|D) = \frac{P(\theta)P(D|\theta)}{P(D)}$ 其中 $P(\theta)$ 是先验概率， $P(D|\theta)$ 是似然函数

三、统计学习的三要素

概述：方法=模型+策略+算法

Model

在监督学习中，模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含了所有的可能条件概率分布或决策函数。例如假设决策函数是输入变量的线性函数，那么模型的假设空间就是所有这些线性函数构成的函数组合。假设空间一般有无穷个。
假设空间用 $F$ 表示，假设空间可以定义为决策函数的集合： $F=\{ f|Y=f(X) \}。$ $F$ 通常是有一个参数向量决定的函数族
$F=\{ f|Y=f_{\theta}(X), \theta \in \mathbb{R}^n \}$
假设空间也可以是条件概率的集合：
$\{ P|P(Y|X) \} = \{ P|P_{\theta}(Y|X), \theta \in \mathbb{R}^n \}$

Strategy
学习方法按照特定的策略，学习或选择最优的模型。

（1）损失函数：
0-1损失函数：不同就记为1
平方损失函数：
绝对损失函数：
对数损失函数（对数似然损失函数）： $\log P(Y|X)$
损失函数越小模型越好。所以损失函数的期望为
$R_{\exp}(f) = E_{P}[L(X, f(X))] = \int_{\mathcal{X} \times \mathcal{Y}}L(x, f(x))P(x,y)dxdy$ 这是理论上模型 $f (X)$ 关于联合分布 $P (X, Y)$ 的平均意义下的损失，称为风险函数或期望损失。
给定一个训练集 $\{(x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N) \}$ ，模型 $f (X)$ 关于训练集的平均损失称为经验风险(emppirical risk)或者经验损失(empirical loss)，记作 $R_{\mathrm{emp}}$
$R_{\mathrm{emp}} (f) = \frac{1}{N}\sum_{i=1}^{N} L (y_i, f(x_i))$ 根据大数定律当样本容量 $N$ 趋于无穷时，经验风险趋于期望风险。所以一个很自然的想法就是用经验风险估计期望风险。但是由于现实中训练样本数目有限，所以经验风险估计期望风险并不理想，需要对经验风险进一步矫正。因为P(X,Y)不知道，知道就不需要估计了。

经验风险最小化和结构风险最小化
经验风险最小化
当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化等价于极大似然估计
结构风险最小化
加上表示模型的复杂度
奥卡姆剃刀：如无必要，切勿假定繁多
最大后验概率估计就是结构风险最小化的例子
所以，当模型是条件概率分布，损失函数是对数损失函数，模型的复杂度有模型的先验概率表示时，结构风险最小化就等价于最大后验概率估计。

监督学习问题就是经验风险或结构风险函数的最优化问题。这时经验或结构风险函数就是最优化的目标函数。

Algotithm
算法之学习模型的具体算法
项目
项目
- 项目
项目1
项目2
项目3
计划任务
完成任务

前言

提示：这里可以添加本文要记录的大概内容：

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。

提示：以下是本篇文章正文内容，下面案例可供参考

一、pandas是什么？

示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。

二、使用步骤

1.引入库

代码如下（示例）：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.读入数据

代码如下（示例）：

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。

总结

提示：这里对文章进行总结：
例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。