Sequential Model-Based Optimization(SMBO)

最新推荐文章于 2024-06-06 09:33:58 发布

原创

最新推荐文章于 2024-06-06 09:33:58 发布 · 9.9k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#函数 #优化

本文深入探讨了高斯过程（GP）及其在全局超参数优化中的应用，尤其是Sequential Model-Based Optimization（SMBO）策略。介绍了单高斯模型（SGM）和高斯混合模型（GMM）的概念，以及如何使用EM算法估计GMM参数。此外，文章还阐述了SMBO中的树状结构Parzen估计器（TPE）和GP的区别，以及它们在处理高维优化问题时的效率提升。文章最后讨论了SMBO的优化标准，如Expected Improvement，并提到了相关软件如Hyperopt和贝叶斯优化工具。

The Gaussian Process Approach(GP)

所谓概率模型，是指训练模型的形式是P(Y|X)。输入是X，输出是Y，训练后模型得到的输出不是一个具体的值，而是一系列的概率值（对应于分类问题来说，就是输入X对应于各个不同Y（类）的概率），然后我们选取概率最大的那个类作为判决对象（软分类–soft assignment）。所谓非概率模型，是指训练模型是一个决策函数Y=f(X)，输入数据X是多少就可以投影得到唯一的Y，即判决结果（硬分类–hard assignment）
高斯混合模型概述

1.1. 单高斯模型（Single GaussianModel, SGM）

$N(x;\mu ,C) = \frac{1}{\sqrt{(2\pi)^n|C|}}\exp[-\frac{1}{2}(x-\mu)^TC^{-1}(x-\mu)]$ (1)
对于单高斯模型，由于可以明确训练样本是否属于该高斯模型（如训练人脸肤色模型时，将人脸图像肤色部分分割出来，形成训练集），故μ通常由训练样本均值代替，由样本方差代替。为了将高斯分布用于模式分类，假设训练样本属于类别K，那么，式(1)可以改为如下形式：
$N(x/K) = \frac{1}{\sqrt{(2\pi)^n|C|}}\exp[-\frac{1}{2}(x-\mu)^TC^{-1}(x-\mu)]$ （2）

式(2)表明样本属于类别K的概率大小。从而将任意测试样本输入式(2)，均可以得到一个标量，然后根据阈值t来确定该样本是否属于该类别，阈值t可以为经验值，也可以通过实验确定。

1.2高斯混合模型（Gaussian Mixture Model,GMM）

高斯混合模型就是用高斯概率密度函数（正态分布曲线）精确地量化事物，它是一个将事物分解为若干的基于高斯概率密度函数（正态分布曲线）形成的模型。s是单一高斯概率密度函数的延伸。
假设有一批观测数据

X = {x 1, x 2, . . ., x n}

$X= \{ x _1 , x_2,..., x_n \}$ ,数据个数为n个。取

H $H$ 中的某一部分样本点生成单一的高斯模型，K个单一的高斯模型投票选择最大概率的分类就形成了混合高斯模型。

假设每个高斯模型在混合模型所占的比例 $\alpha_j$ ，则有这些观测数据分布密度函数如下：
$p(x_i) = \sum_{j=1}^M \alpha_jN_j(x_j;\mu_j,C_j) , \sum_{j=1}^M \alpha_j=1$
其中 $N_j(x;\mu_j,C_j)=\frac{1}{\sqrt{(2\pi)^n|C_j|}}\exp[-\frac{1}{2}(x-\mu_j)^TC_j^{-1}(X-\mu_j)]$
表示第j个的单一高斯模型。其中 $\mu$ 表示x数学期望或均值，C表示协方差矩阵。
令 $\varphi_j=(\alpha_j,\mu_j,C_j)$ ，GMM一共有M个SGM，通过样本集X来估计来估计GMM的所有参数：令 $\Phi = (\varphi_1,\varphi_2,...,\varphi_M)^T$ ，样本X的概率公式为：
$p(X|\Phi) = \prod_{i=1}^{N}\sum_{j=1}^{M}\alpha_jN_j(X_i;\mu_j,C_j)$
通过EM（Expectation Maximum）算法对GMM参数进行估计。
算法流程：
（1）初始化
方案1：协方差矩阵 $C_{j0}$ 设为单位矩阵，每个模型比例的先验概率 $\alpha_{j0}=1/M$ ,均值 $\mu_{j0}$ 设为随机数。
(2)估计步骤（E-step)