克里金(kriging)模型的推导详解

本文介绍了Kriging模型的推导过程,从正态分布、概率密度函数和多元正态分布的基础知识出发,详细阐述了模型建立的步骤,包括假设数据服从正态分布、计算协方差矩阵以及最大似然估计超参数。模型预测部分展示了如何利用估计的参数对未知点进行预测。

1、前言

简介:Kriging模型是一种通过已知试验点信息来预测未知试验点上响应的无偏估计模型,其最早是由南非矿业工程师D.G.Krige于1951年提出。20世纪70年代,法国的数学家G.Matheron对D.G.Krige的研宄成果进行了进一步的系统化、理论化,并将其命名为Kriging模型。1989年Sacks等将Kriging模型推广至试验设计领域,形成了基于计算机仿真和Kriging模型的计算机试验设计与分析方法。
本文将从原理部分,解析Kriging模型的推导过程。本次克里金模型的推导的参考文献为:
 A Taxonomy of Global Optimization Methods Based on Response Surfaces

2、条件

克里金模型在应用时有如下假设条件:
(1)、克里金法假设所有数据之间都服从n维的正态分布。
(2)、无偏。

3、基础知识

在推导克里金模型之前,先来回顾一些统计学的基础知识,各位功底深厚的看客老爷可以直接跳过。

3.1、方差的理解

概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。机器学习中方差又可以理解为不确定性的一种,即方差越大,不确定性越大。

3.2、概率密度函数

在数学中,连续型随机变量的概率密度函数是描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。当概率密度函数存在的时候,累积分布函数是概率密度函数的积分。

3.3、多元正态分布

平常我们见的最多的正态分布大多是是一维的,其的概率密度函数(Probability density function,PDF)如下:
在这里插入图片描述
其中,μ为均值,σ2为方差。也就是说,在均值和方差确定的条件下,上式f(x)也就确定了,这样我们就可以知道在该分布下,随机变量x的可能性大小。
同样,当拓展到二维正态分布时,相当于添加了一个维度,这是均值仍然为每个维度上的均值组合到一起,而方差则变为了协方差,因为要考虑这两个维度之间的关系。此时的均值和协方差变为:
在这里插入图片描述
此时二元正态分布的概率密度函数(pdf)为:
在这里插入图片描述
其中ρ为相关系数,是由这两个维度上的方差计算得到的,如下图所示:x是第一维度上的随机变量,在该维度上,x服从正态分布,同样的,y是第二维度上的随机变量,在该维度上,同样服从正态分布。z就是随机变量x和y取某一个确定值的可能性大小。
在这里插入图片描述
以上为二元正态分布,多元正态分布也是类似,在增加维度即可,不过当维度超过2时,就无法可视化,但并不妨碍我们理解。
多元正态分布的均值向量为:
在这里插入图片描述
多元正态分布的协方差矩阵为:
在这里插入图片描述
其分布函数为:
在这里插入图片描述
也就是说,如果多元正态分布的均值确定了,协方差确定了,那么其分布函数(pdf)就可以确定,我们就可以在这个分布函数上搞点儿事情。比如进一步的进行最大似然估计。

4、理论推导

4.1 模型建立

已知给定了一些标记过的数据集X = { x1,x2,…,xn },其对应的目标函数值为y = { y1,y2,…,yn } ,注意,其中的 x1 是一个长度为 n 的向量,y1 = Y(x1) 。我们的目标就是想通过这些已知的点,来实现对未知点的预测。
首先,克里金模型假设所有数据服从均值为μ方差为σ2的n元的正态分布,也就是说这个n元正态分布函数的均值可以认为是在[ μ-3σ, μ+3σ ]的范围内变化(论文原话,实际上刻画的是不确定性)。现在我们考虑两个点 xi 和 xj ,在我们采样之前,是不确定这两个点的目标函数值的,然而,我们假设建模所用的函数是连续的,当距离 || xi-xj || 比较小时,y(xi)和y(xj)也倾向于高度相关。我们可以通过下面的式子来衡量相关性:
在这里插入图片描述
上面是论文中的描述,初学者可能会比较蒙,下面我简单解释一下:
既然克里金模型假设了所有数据服从n维正态分布,那么对于n维的正态分布,如果想要刻画其pdf,最重要的就是均值和协方差了了,由于是n维,均值为各个维度的均值的组合,为nx1的矩阵,而协方差矩阵里面,非对角线上的元素就是两两随机变量之间的协方差,对角线上的元素就是各个随机变量的方差,(如下图示例,cov(z,x)刻画的是变量z和变量x之间的相关性)。论文中的式(5),就是一个刻画随机变量Y(xi)和变量Y(xj)之间的相关性的函数,属于协方差矩阵中的一员。我们令i=j,那么corr[Y(xi),Y(xj)]就为1.
在这里插入图片描述
紧接着,由于Y是服从n元正态分布,我们将n个已知点放到一起,就变成了:
在这里插入图片描述
Y的均值为lμ,其中l是nx1的矩阵。其协方差如下:

在这里插入图片描述
注意:文献中得R乘以了方差,文献作者应该是想表示协方差矩阵对角线上的值,不过不妨碍我们理解,这里我补充出Cov(Y)的表达式,见下图:
( C o r r [ Y ( X 1 , X 1 ) ] . . . C o r r [ Y ( X 1 , X n ) ] . . . . . . . . . C o r r [ Y ( X n , X 1 ) ] . . . C o r r [ Y ( X n , X n ) ] ) \begin{pmatrix} Corr[Y(X1,X1)]&...&Corr[Y(X1,Xn)]\\ ...&...&...\\ Corr[Y(Xn,X1)]&...&Corr[Y(Xn,Xn)]\\ \end{pmatrix} Corr[Y(X1,X1)]...Corr[Y(Xn,X1)].........Corr[Y(X1,Xn)]...Corr[Y(Xn,Xn)]
上式中的对角线上的值就是向量各自的方差。
这里的R的大小为n x n的矩阵,该矩阵中的每个值都是由公式(5)得到的,i和j都是从1取到n。对角线上i=j,所以R为1,那么协方差Cov(Y)的对角线就是方差。
由上公式可知超参数有μ、σ2,θl和pl(l=1,2,3…d),我们用观测数据
y
进行最大化似然来估计这些超参数,观测数据y如下所示:
在这里插入图片描述
由于服从多维正态分布,最大似然的式子可以写为:
在这里插入图片描述
为了方便运算,取对数:
在这里插入图片描述

下面分别对均值μ、和方差σ2求偏导,即可得到使似然函数最大的均值和方差了,得到结果如下:
在这里插入图片描述
最后,将公式(11)和(12)带入到式(10)中得到log最大似然为:
在这里插入图片描述
由式13可知,log最大似然仅和R有关,而R中有参数θ,因此超参数的调节就是选取合适的θ使得log似然最大,可以用遗传算法或多初始点算法求得。

4.2 模型预测

在4.1中,我们对已知得数据点进行了最大似然估计,得到一些先验超参数,预测就是利用4.1得到得超参数来对未知数据点进行预测。这里考虑一个点 y ~ \widetilde{y} y ,我们将观察到的数据和要预测的点放到一起 y ~ \widetilde{y} y =(y,y*)T ,则对应的协方差矩阵也发生了改变:
在这里插入图片描述
则协方差矩阵变为:
在这里插入图片描述
矩阵中得 r 实际是 rT 的意思。则对应的似然函数为:
**式(10)**在加上下面图片中的式子:
在这里插入图片描述
y ~ \widetilde{y} y R ~ \widetilde{R} R 带入到上式中得:
在这里插入图片描述

下面要做的是如何把中间的逆矩阵表示出来,这里作者用了部分求逆的方法,直接上结果如下:

R ~ \widetilde{R} R -1 =
在这里插入图片描述
将上式带入到式(16)中,我们可以得到扩充后的似然函数为:

在这里插入图片描述
我们可以看到,式(17)是关于y*的二次函数,对其求导并等于0可得:

在这里插入图片描述
从式(18)可以求解出:y*= y ^ \widehat{y} y (x*) = μ ^ \widehat{μ} μ + rR-1(y-l μ ^ \widehat{μ} μ )
在这里插入图片描述
至此,证明完毕。

本文参考:

(1) https://zhuanlan.zhihu.com/p/90272131
(2) 文献:A Taxonomy of Global Optimization Methods Based on Response Surfaces

### 回答1: Kriging模型是一种地理信息分析方法,它通过插值来估计一个未知点的数值。它是依据一定空间距离下各点之间相关性的变化,来推断未知点的数值。在Kringing模型中,空间相关性也是通过一组参数来表示的。这些参数是通过一个半方差函数来确定的。半方差函数的值反映了数据间的相关性。Kringing模型将半方差函数的值用最优化的方式拟合,以获得最佳空间相关性模型Kriging模型的建立分为三步骤:数据采集、空间相关性分析、Kriging模型构建。数据采集包括数据的收集、处理和分析。空间相关性分析是确定半方差函数的关键。不同的半方差函数适合不同的空间数据,因此选择合适的半方差函数非常重要。Kriging模型可以应用于各种各样的地理信息分析和预测问题,如土壤污染、降雨量和污染物浓度的分布。Kringing模型很常见于GIS领域,它可以建立精确的空间数据模型,为决策提供科学依据和数据支持。 在CSND的应用,Kriging模型可以通过Python语言和R语言进行实现,使用地理信息系统软件结合Kriging模型可以对空间数据进行可视化处理。Kriging模型可以与机器学习算法结合使用,来实现更加复杂和优化的空间数据分析。因为Kriging模型是一种插值方法,因此它也具有一定的局限性。它在缺乏数据的区域的准确性会比较差,因此在使用时需要对原始数据的质量进行严格的评估和筛选,以确保插值结果的准确性。 ### 回答2: Kriging模型是一种利用随机场理论进行空间预测的方法,是地质勘查、矿产资源评价等领域的常用预测方法之一。Kriging模型的基本思路是,通过对一定区域内现有的样本点数据进行空间插值,得到该区域未知位置处的数值预测。Kriging模型是一种广义的最小二乘法,具有高精度、高鲁棒性等优点,因此在地球科学等领域广受欢迎。 在使用Kriging模型进行空间预测时,首先需要对插值变量的相关性进行建模,并计算其半方差函数;然后根据半方差函数对未知值进行估计。Kriging模型最常用的方法是普通克里金方法(OK),该方法基于点插值,通过建立数学模型对未知位置进行预测,常用于二维空间插值。此外,也有一些改进的Kriging模型,如块克里金方法、畸变克里金方法等,用于处理复杂地质结构和不规则数据网格的插值问题。 总之,Kriging模型是一种高效、准确的空间预测方法,可以广泛应用于地球科学、环境科学等领域,并在实际中取得了广泛的成功应用。对于有关此类问题的学者和工程师来说,熟练掌握Kriging模型的原理和应用是非常必要的。 ### 回答3: Kriging模型是一种用于插值和预测未知值的方法,也被称为“空间插值”或“地统计学”。该模型使用局部变异性分析来估计未观测到的点的值,并且给出了一个可信度区间。在地质、环境科学、气象学、农业和资源管理等领域,该模型被广泛应用。Kriging模型的结果可用于制作地图和可视化,以帮助研究人员更好地理解地球表面的变化和趋势。 在使用Kriging模型时,首先需要搜集一些点的值,这些点被称为已知点。然后,通过这些已知点的值的变化情况,推算出未知点的值和误差值。Kriging模型采用一种称为半方差函数的方法来计算这些误差值。半方差函数描述了一个点和其他点之间距离和值之间的关系。Kriging模型根据使用的半方差函数类型和已知点的数量来计算误差估计值。 当使用Kriging模型时,需要考虑纵向和横向的变异性,以及是否存在趋势。因此,不同类型的Kriging模型适用于不同的地理数据类型。例如,普通Kriging适用于数据点之间存在确定趋势的情况,而指示Kriging则适用于没有趋势的数据。 总的来说,Kriging模型是一种有效的工具,可以预测未知点的值和误差范围,并帮助人们更好地理解地球表面的变化趋势。
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

steelDK

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值