贝叶斯理论

最新推荐文章于 2025-03-22 23:06:36 发布

cww cww

最新推荐文章于 2025-03-22 23:06:36 发布

阅读量831

点赞数 15

文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/weixin_51473106/article/details/146275282

版权

贝叶斯理论

1. 贝叶斯理论

（1）基本概念

**先验概率：**在考虑任何新证据之前，对事件发生的概率的初始估计。这是根据以往的经验或先前的知识得出的概率。
**后验概率：**在考虑了新证据之后，对事件发生的概率的修正估计。这是通过将先验概率与新证据结合起来，使用贝叶斯定理得出的概率。
**条件概率：**表示事件A在另一个事件B已经发生的条件下发生的概率，通常写作P(A|B)，读作“A在给定B的条件下发生的概率”。

（2）贝叶斯公式

贝叶斯理论是概率论中用于更新先验概率的重要工具，其核心公式为：
$\frac{P(B|A) \cdot P(A)}{P(B)}$

其中，事件 $A$ 是要考察的目标事件， $P (A)$ 是事件 $A$ 的初始概率，称为先验概率，它是根据一些先前的观测或者经验得到的概率。
$B$ 是新出现的一个事件，它会影响事件 $A$ 。 $P (B)$ 表示事件 $B$ 发生的概率。
$P (B ∣ A)$ 表示当 $A$ 发生时 $B$ 的概率，它是一个条件概率。
$P (A ∣ B)$ 表示当 $B$ 发生时 $A$ 的概率（也是条件概率），它是我们要计算的后验概率，指在得到一些观测信息后某事件发生的概率。

（3）理解与应用实例

过去没有大数据，所以先验概率很难获得。近年来，随着技术的发展，很多数据被人们积累下来，贝叶斯模型的运用领域也越来越广泛。比如在一些语言翻译的网站、电子邮件软件、医疗诊断的仪器中等等，都会用到贝叶斯的统计方法。

贝叶斯定理告诉我们，即便获得了新的证据，也不要完全放弃初始的信念。新的证据会让我们对某些结果更有信心，或帮助我们修正初始信念的错误。也就是说，我们既要关注新的证据，又不能忽略初始信念。新的证据很重要，因为初始信念可能是错的，这些证据可以用于做出修正。但同时，初始信念仍然是重要的基础，不能只根据新证据就草率地做出判断。

贝叶斯定理的应用，包括但不限于：

医学诊断：在医学中，贝叶斯定理可用于确定疾病的风险和诊断结果的准确性。医生可以根据患者的症状和检测结果，结合先验知识和条件概率，计算出患某种疾病的后验概率，从而做出更准确的诊断。
机器学习：在机器学习中，贝叶斯定理通常用于概率图模型和贝叶斯推断。例如，在朴素贝叶斯分类器中，我们使用贝叶斯定理来计算给定特征的情况下某个类别的后验概率，从而对新数据进行分类。
自然语言处理：在自然语言处理中，贝叶斯定理可以用于文本分类、情感分析等任务。通过将先验概率与文本中的单词或短语的出现频率结合起来，可以推断出文本所属的类别或情感倾向。
信号处理：在通信和信号处理领域，贝叶斯推断可用于解决噪声干扰下的信号恢复和通信问题。通过考虑先验概率和观测数据，可以推断出信号的真实值。
金融领域：在金融领域，贝叶斯定理可用于风险管理、投资组合优化和预测金融市场趋势。通过结合历史数据和先验知识，可以更准确地估计资产的风险和收益。
搜索引擎：贝叶斯推断在搜索引擎中也有应用，例如用于个性化搜索结果排序和相关性评分的计算。通过考虑用户的历史搜索行为和网页内容的特征，可以提高搜索结果的准确性和用户满意度。

应用实例（1）:疾病检测

问题：某疾病发病率为1%，检测准确率为99%（即患者检测阳性概率为99%，健康人检测阴性概率为99%）。若某人检测为阳性，实际患病的概率是多少？

计算过程：

定义事件：
$A$ ：患病， $B$ ：检测阳性。
已知： $P (A) = 0.01$ ， $P (B ∣ A) = 0.99$ ， $P(B|\neg A)=0.01$ 。
计算全概率 $P (B)$ ：
$P(B|\neg A)P(\neg A) = 0.99 \times 0.01 + 0.01 \times 0.99 = 0.0198$
应用贝叶斯公式：
$\frac{0.99 \times 0.01}{0.0198} \approx 0.5$
结论：即使检测准确率高达99%，因疾病罕见，检测阳性者实际患病概率仅约50%,凸显了结合先验概率的重要性。

应用实例（2）:贝叶斯理论在侧信道分析中的应用——模板攻击（Template Attack）

【注】侧信道分析（Side-Channel Analysis, SCA）是一种通过物理设备运行时泄漏的旁路信息（如功耗、电磁辐射、执行时间等）推断密码算法内部秘密信息（如密钥）的攻击方法。贝叶斯公式在侧信道分析中扮演了核心角色，尤其是在模板攻击和概率建模中，能够将先验知识与观测数据结合，逐步缩小密钥的可能范围。

模板攻击是侧信道分析中最强大的攻击方法之一，其核心是贝叶斯理论。以下以攻击AES-128加密算法为例说明流程：

公式定义：
$P(\text{密钥} | \text{侧信道数据}) = \frac{P(\text{侧信道数据} | \text{密钥}) \cdot P(\text{密钥})}{P(\text{侧信道数据})}$
先验概率 $P(\text{密钥})$ ：攻击者对密钥的初始猜测（如均匀分布假设或历史攻击经验）。

后验概率 $P(\text{密钥} | \text{数据})$ ：结合观测数据后，密钥正确的更新概率。

模板构建（训练阶段）

目标：为每个可能的密钥字节（或中间值）建立侧信道泄漏的统计模型。
步骤：
1. 采集数据：使用已知密钥对设备进行多次加密，记录功耗或电磁轨迹。
2. 特征提取：选择泄漏点（如特定时钟周期的功耗）。
3. 建模：对每个密钥假设 $k$ ，计算其对应泄漏数据的概率分布（如多元高斯分布），即 $P(\text{数据} | k)$ 。

密钥恢复（攻击阶段）

目标：利用未知密钥设备的侧信道数据，通过贝叶斯公式计算后验概率。
步骤：
1. 观测数据：获取目标设备运行时的侧信道轨迹 $D$ 。
2. 计算似然：对每个候选密钥 $k_i$ ，计算 $P(D | k_i)$ （基于模板模型）。
3. 更新后验：假设先验 $P(k_i)$ 均匀分布，则后验概率简化为：
  $P(k_i | D) \propto P(D | k_i)$
4. 迭代优化：通过多次观测 $D_1, D_2, \dots, D_n$ ，逐次更新后验概率：
  $P(k_i | D_1, D_2, \dots, D_n) \propto \prod_{j=1}^n P(D_j | k_i)$
5. 确定密钥：选择后验概率最高的 $k_i$ 作为正确密钥。

实例：AES密钥恢复

攻击目标：恢复AES-128的第一轮密钥字节。
模板建模：对每个候选密钥字节（0~255），训练其对应S盒输出的功耗分布模型（均值和协方差矩阵）。
攻击过程：
1. 对未知密钥设备采集单条功耗轨迹 $D$ ，提取S盒计算阶段的泄漏点。
2. 对每个候选密钥 $k_i$ ，计算其S盒输出值，并利用模板模型计算 $P(D | k_i)$ 。
3. 归一化后验概率，输出概率最高的密钥字节。

结果：通过多次观测，正确密钥的后验概率迅速收敛至接近1，错误密钥概率趋近于0。

（4）贝叶斯定理优点与局限

优点：能够自然地处理不确定性，能够利用先验知识有效地更新后验概率，尤其适用于小样本情况。
局限：需要给定先验概率，选择合适的先验可能会影响结果；在计算边际概率时可能需要求和或积分，计算复杂度较高。

2. 极大似然

（1）基本概念

极大似然估计（Maximum Likelihood Estimation, MLE）是一种统计方法，利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。它的基本思想是：找到一组参数，使得在这些参数下，观测到的数据出现的概率最大。

（2）公式

假设我们有一个参数化的概率模型，其参数为 $\theta$ ，对于观测到的数据集 $\{x_1, x_2, \ldots, x_n\}$ ，每个数据点的概率由模型的概率密度函数 $f(x|\theta)$ 或概率质量 $P(x|\theta)$ 给出。

目标: 选择一个参数 $\hat{\theta}$ ，使得数据 $X$ 在参数为 $\theta$ 的条件下的联合概率最大。
似然函数: 数据 $X$ 的联合概率被称为 似然函数，表示为：
$L(\theta|X) = \prod_{i=1}^n P(x_i|\theta)$
这里 $P(x_i|\theta)$ 是每个样本点的条件概率。
极大化目标: 选择参数 $\theta$ 使得似然函数 $L(\theta|X)$ 最大：
$\hat{\theta} = \arg \max_{\theta} L(\theta|X)$

（3）应用实例

应用实例（1）:离散型分布（伯努利分布）

问题：假设一个硬币抛 $n$ 次，观察到正面 $k$ 次，反面 $n - k$ 次，硬币正面概率为 $p$ 。目标是估计 $p$ 。

概率模型：单次抛硬币的概率由伯努利分布给出：
$p^x(1-p)^{1-x}, \quad x \in \{0,1\}$
似然函数：
$\prod_{i=1}^n P(x_i|p) = p^k(1-p)^{n-k}$
对数似然函数：
$\ell(p|X) = \log L(p|X) = k \log p + (n-k) \log(1-p)$
求导并极值化：
对 ( p ) 求导并令导数为 0：
$\frac{\partial \ell(p|X)}{\partial p} = \frac{k}{p} - \frac{n-k}{1-p} = 0$
解得：
$\hat{p} = \frac{k}{n}$