提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
一、统计学习
统计学习的定义:预测和分析
特点:各种理论
统计和机器学习的区别:
- 统计:线性回归,逻辑回归等(理论扎实,模型更容易解释和控制)模型可靠性。
- 机器学习:不知道中间的产生过程,预测效果好,但是可解释性差。
统计学习的研究对象是数据,同类数据具有一定的统计规律性,数据可以是离散的或者连续的,通过概率统计模型来实现的
统计学习:监督学习+无监督学习
假设空间:
y
=
k
x
+
b
y=kx+b
y=kx+b,例如
y
=
0.8
x
+
0.2
y=0.8x+0.2
y=0.8x+0.2
准则(策略):
算法实现:
具体步骤:
监督(有标签)
非监督(无标签)
重要性
二、统计学习的分类
- 基础分类
监督学习
(1) 输入空间、特征空间和输出空间
输入空间映射到特征空间上
输入变量为 X X X,输出变量为 Y Y Y,输入和输出变量的取值用小写字母表示,输入变量的取值写作 x x x,输出变量的取值写作 y y y,变量可以是标量也可以是向量,都用相同类型的字母表示。输入变量的实例的特征向量记作(按照文中的记法)
x = ( x ( 1 ) , x ( 2 ) , ⋯ , x ( i ) , ⋯ , x ( n ) ) T x=(x^{(1)}, x^{(2)}, \cdots, x^{(i)}, \cdots, x^{(n)})^{T} x=(x(1),x(2),⋯,x(i),⋯,x(n))T表示的是数据 x ( i ) x^{(i)} x(i)的第 i i i个特征。
此外, x i x_i xi表示多个输入变量中的 x x x的第 i i i个特征,
x i = ( x i ( 1 ) , x i ( 2 ) , ⋯ , x i ( n ) ) T x_i=(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(n)})^T xi=(xi(1),xi(2),⋯,xi(n))T
那么 X X X可以表示为
X = ( x 1 , x 2 , ⋯ , x N ) = ( x 1 ( 1 ) x 2 ( 1 ) ⋯ x N ( 1 ) x 1 ( 2 ) x 2 ( 2 ) ⋯ x N ( 2 ) ⋮ ⋮ ⋱ ⋮ x 1 ( n ) x 2 ( n ) ⋯ x N ( n ) ) X=(x_1, x_2, \cdots, x_N)= \begin{pmatrix} x_{1}^{(1)} & x_{2}^{(1)} & \cdots & x_{N}^{(1)} \\ x_{1}^{(2)} & x_{2}^{(2)} & \cdots & x_{N}^{(2)} \\ \vdots & \vdots & \ddots & \vdots \\ x_{1}^{(n)} & x_{2}^{(n)} & \cdots & x_{N}^{(n)} \end{pmatrix} X=(x1,x2,⋯,xN)= x1(1)x1(2)⋮x1(n)x2(1)x2(2)⋮x2(n)⋯⋯⋱⋯xN(1)xN(2)⋮xN(n)
则输出数据对应也是 Y = ( y 1 , y 2 , ⋯ , y N ) T Y=(y_1, y_2, \cdots, y_N)^{T} Y=(y1,y2,⋯,yN)T。
训练接通常表示为
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x N , y N ) } T = \{(x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N) \} T={(x1,y1),(x2,y2),⋯,(xN,yN)}
这个是我自己的标记,
\textcolor{red}{这个是我自己的标记,}
这个是我自己的标记,
x
i
=
(
x
i
1
,
x
i
2
,
…
,
x
i
k
)
T
\textcolor{red}{x_i = (x_{i1}, x_{i2}, \ldots, x_{ik})^T}
xi=(xi1,xi2,…,xik)T
表示第
i
个数据的有
k
个特征,写成完整的数据如下
\textcolor{red}{表示第i个数据的有k个特征,写成完整的数据如下}
表示第i个数据的有k个特征,写成完整的数据如下
X
=
(
x
1
,
x
2
,
…
,
x
n
)
T
=
(
x
11
x
12
⋯
x
1
k
x
21
x
22
⋯
x
2
k
⋮
⋮
⋱
⋮
x
n
1
x
n
2
⋯
x
n
k
)
\textcolor{red}{ X = (x_1, x_2, \ldots, x_n)^T = \begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1k} \\ x_{21} & x_{22} & \cdots & x_{2k} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{nk} \end{pmatrix}}
X=(x1,x2,…,xn)T=
x11x21⋮xn1x12x22⋮xn2⋯⋯⋱⋯x1kx2k⋮xnk
此时
X
是一个
n
×
k
的矩阵。
\textcolor{red}{此时 X 是一个 n \times k 的矩阵。}
此时X是一个n×k的矩阵。
输入变量和输出变量均为连续变量称为回归问题,输出变量为离散的为分类问题
(2) 联合概率分布
P
(
X
,
Y
)
P(X, Y)
P(X,Y),
X
X
X和
Y
Y
Y联合概率分布就是监督学习关于数据的基本假设。
(3) 假设空间
输入到输出之间的映射,映射的集合就是假设空间。
监督学习可以由概率模型和非概率模型,条件概率分布和决策函数
(4)问题的形式化
表示为条件概率模型
P
^
(
Y
∣
X
)
\hat{P}(Y|X)
P^(Y∣X)或决策函数
Y
=
f
^
(
X
)
Y=\hat{f}(X)
Y=f^(X)
得到的模型为
y
N
+
1
=
arg min
y
P
^
(
y
∣
x
N
+
1
)
y_{N+1} = \argmin_{y}\hat{P}(y|x_{N+1})
yN+1=argminyP^(y∣xN+1)或者
y
N
+
1
=
f
^
(
x
N
+
1
)
y_{N+1}=\hat{f}(x_{N+1})
yN+1=f^(xN+1)给出相应的输出
y
N
+
1
y_{N+1}
yN+1。
(5)问题的形式化
利用贝叶斯定理,计算在给定数据条件下模型的条件概率,即后验概率,并用这个原理进行模型的估计,以及对数据的预测。将模型、未观测要素及其参数用变量表示,使用模型的先验分布是贝叶斯学习的特点。
假设随机变量
D
D
D表示数据,随机变量
θ
\theta
θ表示模型参数,根据贝叶斯定理,可以使用公式计算后验概率
P
(
θ
∣
D
)
=
P
(
θ
)
P
(
D
∣
θ
)
P
(
D
)
P(\theta|D) = \frac{P(\theta)P(D|\theta)}{P(D)}
P(θ∣D)=P(D)P(θ)P(D∣θ)其中
P
(
θ
)
P(\theta)
P(θ)是先验概率,
P
(
D
∣
θ
)
P(D|\theta)
P(D∣θ)是似然函数
三、统计学习的三要素
概述:方法=模型+策略+算法
- Model
在监督学习中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含了所有的可能条件概率分布或决策函数。例如假设决策函数是输入变量的线性函数,那么模型的假设空间就是所有这些线性函数构成的函数组合。假设空间一般有无穷个。
假设空间用
F
F
F表示,假设空间可以定义为决策函数的集合:
F
=
{
f
∣
Y
=
f
(
X
)
}
。
F=\{ f|Y=f(X) \}。
F={f∣Y=f(X)}。
F
F
F通常是有一个参数向量决定的函数族
F
=
{
f
∣
Y
=
f
θ
(
X
)
,
θ
∈
R
n
}
F=\{ f|Y=f_{\theta}(X), \theta \in \mathbb{R}^n \}
F={f∣Y=fθ(X),θ∈Rn}
假设空间也可以是条件概率的集合:
F
=
{
P
∣
P
(
Y
∣
X
)
}
=
{
P
∣
P
θ
(
Y
∣
X
)
,
θ
∈
R
n
}
F= \{ P|P(Y|X) \} = \{ P|P_{\theta}(Y|X), \theta \in \mathbb{R}^n \}
F={P∣P(Y∣X)}={P∣Pθ(Y∣X),θ∈Rn}
- Strategy
学习方法按照特定的策略,学习或选择最优的模型。
(1)损失函数:
0-1损失函数:不同就记为1
平方损失函数:
绝对损失函数:
对数损失函数(对数似然损失函数):
L
(
Y
,
P
(
Y
∣
X
)
)
=
−
log
P
(
Y
∣
X
)
L(Y, P(Y|X)) = - \log P(Y|X)
L(Y,P(Y∣X))=−logP(Y∣X)
损失函数越小模型越好。所以损失函数的期望为
R
exp
(
f
)
=
E
P
[
L
(
X
,
f
(
X
)
)
]
=
∫
X
×
Y
L
(
x
,
f
(
x
)
)
P
(
x
,
y
)
d
x
d
y
R_{\exp}(f) = E_{P}[L(X, f(X))] = \int_{\mathcal{X} \times \mathcal{Y}}L(x, f(x))P(x,y)dxdy
Rexp(f)=EP[L(X,f(X))]=∫X×YL(x,f(x))P(x,y)dxdy这是理论上模型
f
(
X
)
f(X)
f(X)关于联合分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y)的平均意义下的损失,称为风险函数或期望损失。
给定一个训练集
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
⋯
,
(
x
N
,
y
N
)
}
T = \{(x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N) \}
T={(x1,y1),(x2,y2),⋯,(xN,yN)},模型
f
(
X
)
f(X)
f(X)关于训练集的平均损失称为经验风险(emppirical risk)或者经验损失(empirical loss),记作
R
e
m
p
R_{\mathrm{emp}}
Remp
R
e
m
p
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
R_{\mathrm{emp}} (f) = \frac{1}{N}\sum_{i=1}^{N} L (y_i, f(x_i))
Remp(f)=N1i=1∑NL(yi,f(xi))根据大数定律当样本容量
N
N
N趋于无穷时,经验风险趋于期望风险。所以一个很自然的想法就是用经验风险估计期望风险。但是由于现实中训练样本数目有限,所以经验风险估计期望风险并不理想,需要对经验风险进一步矫正。因为P(X,Y)不知道,知道就不需要估计了。
经验风险最小化和结构风险最小化
经验风险最小化
当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计
结构风险最小化
加上表示模型的复杂度
奥卡姆剃刀:如无必要,切勿假定繁多
最大后验概率估计就是结构风险最小化的例子
所以,当模型是条件概率分布,损失函数是对数损失函数,模型的复杂度有模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计。
监督学习问题就是经验风险或结构风险函数的最优化问题。这时经验或结构风险函数就是最优化的目标函数。
-
Algotithm
算法之学习模型的具体算法 -
项目
-
项目
- 项目
-
项目1
-
项目2
-
项目3
-
计划任务
-
完成任务
前言
提示:这里可以添加本文要记录的大概内容:
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。
提示:以下是本篇文章正文内容,下面案例可供参考
一、pandas是什么?
示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
二、使用步骤
1.引入库
代码如下(示例):
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
2.读入数据
代码如下(示例):
data = pd.read_csv(
'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())
该处使用的url网络请求的数据。
总结
提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
205

被折叠的 条评论
为什么被折叠?



