高斯过程(Gaussian Process, GP)是一种强大的统计模型,用于对数据中的不确定性进行建模,特别是在机器学习和统计推断领域。高斯过程常用于回归(预测连续输出)和分类任务,提供了一种优雅的方式来预测及量化预测的不确定性。
文章目录
简介
高斯过程通常表示为 G P ( m , k ) GP(m, k) GP(m,k),其中 m m m 是均值函数,通常可以是零(或任何其他常数), k k k 是协方差函数,也称为核函数。当提到 G P ( 0 , 1 ) GP(0, 1) GP(0,1) 时,通常指的是具有零均值和单位方差的简化高斯过程。
具体公式
对于 G P ( 0 , 1 ) GP(0, 1) GP(0,1),假设一个随机函数 f ( x ) f(x) f(x) 满足高斯过程,其均值函数 m ( x ) = 0 m(x) = 0 m(x)=0(对所有 x x x 都是零),协方差函数 k ( x , x ′ ) = δ ( x , x ′ ) k(x, x') = \delta(x, x') k(x,x′)=δ(x,x′),其中 δ \delta δ 是狄拉克δ函数。这表示任意两点 x x x 和 x ′ x' x′ 的函数值 f ( x ) f(x) f(x) 和 f ( x ′ ) f(x') f(x′) 是独立且标准正态分布的,如果 x = x ′ x = x' x=x′,则完全相关(协方差为1),如果 x ≠ x ′ x \neq x' x=x′,则无关(协方差为0)。
数学表达
公式可以表达为:
f ( x ) ∼ N ( 0 , 1 ) f(x) \sim \mathcal{N}(0, 1) f(x)∼N(0,1)
对于任何有限集合的点 x 1 , x 2 , … , x n x_1, x_2, \ldots, x_n x1,x2,…,xn, f f f 在这些点的值形成的向量 f = ( f ( x 1 ) , f ( x 2 ) , … , f ( x n ) ) T \mathbf{f} = (f(x_1), f(x_2), \ldots, f(x_n))^T f=(f(x1),f(x2),…,f(xn))T 也遵循多元正态分布:
f ∼ N ( 0 , I ) \mathbf{f} \sim \mathcal{N}(\mathbf{0}, \mathbf{I}) f∼N(0,I)
其中, 0 \mathbf{0} 0 是一个 n n n 维的零向量, I \mathbf{I} I 是 n × n n \times n n×n 的单位矩阵,表示这些点的函数值互相独立。
这种形式的高斯过程因为其简化的性质,在实际应用中比较少见,通常会选择更复杂的协方差函数来捕捉数据点之间的相关性。
高斯过程的基本概念
1. 高斯分布(正态分布)
高斯过程的基础是高斯分布,即正态分布。这是一种对称的钟形曲线分布,由两个参数控制:均值(mean)和方差(variance)。均值确定了分布的中心位置,方差确定了分布的宽度,即数据的分散程度。
2. 从高斯分布到高斯过程
高斯过程描述的是函数的分布,而不仅是实数的分布。如果你认为一个函数的每个点的值都来自某个高斯分布,并且每一对点之间的值都有某种确定的相关性,那么你就可以用高斯过程来描述这个函数。高斯过程本质上是无限维的高斯分布,每个维度对应函数的一个可能的值。
3. 核函数(Covariance Function)
核函数在高斯过程中定义点与点之间的相关性。它描述了一个点处的函数值如何影响其他点处的函数值。常见的核函数包括平方指数核、线性核和周期核等。选择不同的核函数可以捕捉数据的不同特性,如平滑度、周期性等。
高斯过程的应用
1. 高斯过程回归(Gaussian Process Regression)
在高斯过程回归中,我们使用高斯过程来预测给定输入点的输出值。具体步骤如下:
- 选择一个核函数,这决定了你认为数据中的关系是怎样的。
- 给定训练数据(已知的输入-输出对),基于核函数计算训练点之间的协方差矩阵。
- 预测新点的输出,通过计算新点与训练数据点之间的协方差,并利用这些协方差更新你对新点输出的预测及其不确定性。
2. 量化预测的不确定性
高斯过程的一个关键优势是能够提供预测的不确定性估计。对于每一个预测点,高斯过程不仅给出预测值(即均值),还提供了预测的方差,这个方差可以被解释为该预测的不确定性。
高斯过程回归
高斯过程回归(Gaussian Process Regression, GPR)是一种基于概率的回归方法,使用高斯过程来预测未知数据点的输出。在深入数学公式之前,我们先建立一些概率论的基础知识。
概率论基础
-
高斯分布(正态分布):
- 单变量高斯分布的概率密度函数为: p ( x ) = 1 2 π σ 2 exp ( − ( x − μ ) 2 2 σ 2 ) p(x) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) p(x)=2πσ21exp(−2σ2(x−μ)2)
其中, μ \mu μ 是均值, σ 2 \sigma^2 σ2 是方差。
- 单变量高斯分布的概率密度函数为: p ( x ) = 1 2 π σ 2 exp ( − ( x − μ ) 2 2 σ 2 ) p(x) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) p(x)=2πσ21exp(−2σ2(x−μ)2)
-
多变量高斯分布:
- x ∈ R n \mathbf{x} \in \mathbb{R}^n x∈Rn 为随机向量,其服从多变量高斯分布: x ∼ N ( μ , Σ ) \mathbf{x} \sim \mathcal{N}(\boldsymbol{\mu}, \Sigma) x∼N(μ,Σ)
其中, μ \boldsymbol{\mu} μ 是均值向量, Σ \Sigma Σ 是协方川矩阵。
- x ∈ R n \mathbf{x} \in \mathbb{R}^n x∈Rn 为随机向量,其服从多变量高斯分布: x ∼ N ( μ , Σ ) \mathbf{x} \sim \mathcal{N}(\boldsymbol{\mu}, \Sigma) x∼N(μ,Σ)
-
条件概率和边际概率:
- 条件概率:给定事件 B B B 发生的条件下,事件 A A A 发生的概率,表示为 P ( A ∣ B ) P(A|B) P(A∣B)。
- 边际概率:不考虑其他变量影响下,某个事件发生的概率。
高斯过程回归的数学描述
高斯过程是定义在连续输入空间的随机过程,其中任何一组点的联合分布都是高斯的。
高斯过程定义
假设我们有一个函数 f ( x ) f(x) f(x) 从输入空间 X \mathcal{X} X 映射到实数 R \mathbb{R} R。如果对于任意选择的点集 KaTeX parse error: Unexpected end of input in a macro argument, expected '}' at end of input: … \in \mathcal{X,这些点对应的函数值 f ( x 1 ) , … , f ( x n ) f(x_1), \ldots, f(x_n) f(x1),…,f(xn) 总是服从多元高斯分布,则 f f f 可以表示为一个高斯过程:
f ( x ) ∼ GP ( m ( x ) , k ( x , x ′ ) ) f(x) \sim \text{GP}(m(x), k(x, x')) f(x)∼GP(m(x),k(x,x′))
其中, m ( x ) m(x) m(x) 是均值函数, k (