苏西月-优快云博客

原创人生 × 深度学习

人生的意义也许不是固定的，但我们可以给它“定义一个目标函数”，并用一生去最小化它。在深度学习里，loss function 衡量了你现在和“理想状态”之间的差距。生活中的你如果永远绷紧、强迫每一次都完美地工作，其实容易过拟合现实。慢慢下坡，一步步来，每次都只更新一点点，不断接近一个你想成为的人。少一点执着，多一点自我，才能 generalize 到真正的生活。然后继续 forward，一直到自己收敛为最好的版本。学习率一开始很小，慢慢变大，然后再衰减。，它会让你去关注生活中不同的维度。

2025-03-27 14:22:58 304

原创 Attention的V的理解

Q 和 K 只能告诉模型“你要关注谁”，但你要预测一个英文单词，必须从原句中取出具体的语义内容，也就是 V。如果你不提取 V，就相当于“知道要看谁，但不知道他讲了什么”——你就无法输出真正有语义的翻译结果。其实是在探讨“模型翻译为什么不能直接输出答案”，而是还得“提取语义”，还要搞什么 Q、K、V，这不多此一举吗？我们一步一步给出你完全能理解的回答👇你以为模型是：实际上模型是：看到 “i” → 输出 “我”看完整个句子 → 判断上下文 → 输出合适的词靠字典对照。

2025-03-24 04:31:35 523

原创卷积神经网络（CNN）

层类型主要功能输出结构变化卷积层提取局部特征，保留空间结构变为多个 feature maps池化层降维，增强平移不变性，减少计算量降低 feature maps 的空间尺寸全连接层整合所有特征并用于最终分类或预测得到最终输出（如10类概率）

2025-03-22 07:00:49 839

原创 HMM (Hidden Markov Model) 基于高斯分布转换为高斯混合分布的过程

在隐马尔可夫模型 (HMM) 中，状态的观测概率通常建模为高斯分布 (Gaussian distribution)，因为这样可以使计算更加简单。在 HMM 训练中，通常会先对状态进行聚类，以便减少参数数量，提高模型的泛化能力。在引入多个高斯分布后，我们需要对模型进行重新训练，使得这些新的高斯分布可以更好地适应数据。任务中非常常见，因为它可以有效提高 HMM 处理语音数据的能力，同时仍然保留 HMM 的隐状态建模能力。作为状态的输出概率分布，可以提高模型的建模能力，使得 HMM 更能准确地描述音频信号。

2025-03-15 21:51:32 863

原创相关系数 $\rho_{ij}$ 解释

在统计学和数据分析中，它用于衡量两个变量之间的。，说明身高和体重高度正相关，较高的人往往体重大。

2025-03-08 10:57:34 587

原创多元高斯分布概率密度函数（PDF）示例

多元高斯分布（Multivariate Gaussian Distribution）适用于。，用于建模数据的联合分布。完整计算可以用 Python 验证。假设我们有一个二维（

2025-03-08 10:56:31 420

原创多元高斯分布及其参数估计

多元高斯分布（或多元正态分布，Multivariate Gaussian Distribution）是。在机器学习、信号处理、统计学和模式识别等领域，多元高斯分布被广泛应用。，它考虑了数据的分布情况，而不是直接使用欧几里得距离。极大似然估计（MLE）用于找到。对于均值向量，MLE 估计值是。时，多元高斯分布退化为。，使得数据点的似然最大。协方差矩阵不仅仅描述。这个二次型相当于计算。

2025-03-08 10:38:56 882

原创累积分布函数（CDF）和概率密度函数（PDF）

这就是样本方差（sample variance）。，是最常见的连续概率分布之一。正态分布的期望值（均值）就是。，我们希望估计正态分布的参数。来描述连续随机变量的行为。，其概率密度函数（PDF）在概率论中，我们通常使用。这个函数描述了随机变量。，即极大似然估计的均值。对于一个实值随机变量。

2025-03-08 10:35:54 936

原创 R 个语音序列（utterances）

这样，我们可以在整个语料库上优化HMM参数，而不仅仅是单个语音序列。在实际的语音识别任务中，我们通常不会只用。的HMM训练中，我们使用。时，需要对所有语音数据。，然后再计算HMM参数。HMM的状态转移概率。

2025-03-08 10:27:49 756

原创 HMM 在多个语音序列上的训练简述

但如果我们有多个语音序列，就需要在所有语料。在实际应用中，我们的HMM模型通常是。在EM算法的M步中，状态转移概率。的，而不仅仅是单个语音序列。个语音序列，每个语音序列。假设我们的语料库包含。

2025-03-08 10:26:11 502

原创 EM算法（Expectation-Maximization）中， E E 步（E-step）和 M M 步（M-step）分别对应的操作

在EM算法（Expectation-Maximization）中，E步（E-step）和M。

2025-03-08 10:22:24 605

原创期望最大化（EM, Expectation-Maximization）算法的核心思想

为什么我们不直接最大化logPXQ∣Mλ，而是最大化Q∈Q∑PQ∣XMλ0logPXQ∣Mλ。

2025-03-08 10:11:15 778

原创 HMM 采用高斯分布

虽然单个高斯分布适用于很多情况，但在某些复杂的任务（如语音识别）中，一个状态可能对应多个类别的观测数据。选择高斯分布作为 HMM 的发射概率还有一些额外的数学和统计上的优点。高斯分布是最常见的连续分布之一，所以它是一个自然的选择。在 HMM 训练过程中，我们希望找到能最大化数据似然。所以，高斯分布成为 HMM 中连续发射概率的首选。，这使得它成为连续数据建模的默认选择。来建模，而不能使用离散分布。为了解决这个问题，可以扩展到。在 HMM 中，发射概率。是连续变量，我们必须用。

2025-03-08 09:46:40 789

原创高斯 HMM（GHMM）

在某些复杂应用中，例如语音识别，一个隐藏状态可能对应多个不同的音素特征，这时单个高斯分布可能不够用。为了解决这个问题，我们可以使用。（如噪声、测量误差）都服从或近似服从高斯分布。高斯分布的数学性质使其成为建模连续变量的常见选择。，我们无法使用离散的概率分布（如多项分布），而高斯分布是最常见的连续概率分布之一。HMM 的发射概率（Emission Probability）我们可以从以下几个角度来理解为什么可以使用高斯分布。许多 HMM 的应用场景中，观测值是连续的。在 HMM 中，发射概率。

2025-03-08 09:44:56 501

原创 HMM分解联合概率

它基于马尔可夫假设（Markov Assumption），可以用于推导 HMM 相关的概率计算，比如。下面我来详细解释这个分解的逻辑以及它的数学依据。这个公式是 HMM 计算中的核心，特别是在。后，生成剩余观测数据的概率。

2025-03-08 09:42:17 442

原创【无标题】高斯分布（Gaussian）还是隐马尔可夫模型（HMM）

那么 HMM 是更合适的选择。下，观测数据服从一个高斯分布。，那么使用高斯分布可能更合适。这是 HMM 在时间。，HMM 的观测概率。

2025-03-08 09:37:26 901

原创 HMM状态占用概率推导

的关键部分，用于计算状态占用概率，从而在 M 步更新 HMM 参数。这个公式是 HMM 训练（Baum-Welch 算法）中。这对于长序列来说是不可行的。，使得 HMM 的训练和推断变得可行。是所有可能的隐藏状态序列。，我们可以分解联合概率。来求和，计算复杂度是。

2025-03-08 09:35:44 615

原创条件概率表示法

是否存在取决于你是否在描述一个具体的。的观测序列，所有可能的状态路径数是。但我们不能直接计算这个求和，因为。，以及在 HMM 中如何知道。，通常我们必须对隐藏变量进行。，远远优于直接求和。

2025-03-08 09:29:10 646

原创 EM训练过程

即我们对隐藏状态的“猜测”应该是多少。（因为要考虑所有可能的隐藏状态序列。如果我们希望找到HMM的最优参数。

2025-03-08 09:26:48 900

原创加权有限状态变换器（Weighted Finite-State Transducer, WFST）

TQΣΓEq0FλTQΣΓEq0FλQQQ：状态的有限集合。Σ\SigmaΣ：输入符号（Input Alphabet）。Γ\GammaΓ：输出符号（Output Alphabet）。E⊆Q×Σ∪ε×Γ∪ε×R×QE⊆Q×Σ∪ε})×Γ∪ε})×R×Q状态转移集合（Transitions），表示从一个状态到另一个状态的合法变换。

2025-02-04 16:58:20 1035

原创音子（mora）、音节（syllable）、音调（tone）和音素（phoneme）

用于衡量一个音节的长短。在一些语言中（如日语），音子的数量影响韵律（prosody）和节奏（rhythm）。，但有些汉字可能会被读作多个音节（如"噢"可以是 “ō” 或 “o”).诗歌的格式基于音子（5-7-5 结构），而不是音节。，在某些语言（如汉语、泰语、越南语）中，音调会改变。

2025-02-03 17:03:30 805

原创音子（Mora）和音节（Syllable）

也就是说，每个音节通常只包含一个音子。，因为某些音节可能包含。

2025-02-03 16:58:55 465

原创这段内容详细介绍了语音识别的核心概念、总体架构以及基于HMM（隐马尔可夫模型）的噪声信道模型（noisy-channel model），并通过**贝叶斯推理（Bayesian infe

语音识别的任务是从输入的语音信号（通常表示为声学波形）中，识别出对应的文本句子。这个过程面临一个关键挑战：真实的信号在传输过程中会受到噪声的影响（比如环境噪声或设备误差），从而导致信号失真，增加了语音识别的难度。噪声信道模型是语音识别的经典框架，通过语言模型和声学模型的结合，在理论上为语音识别提供了数学基础。在实际应用中，动态规划算法（如维特比算法）进一步提升了搜索效率，解决了计算复杂性的问题。这个过程展示了如何通过贝叶斯推理和噪声信道模型，从噪声污染的信号中恢复源句子。

2025-02-03 16:24:38 733

原创 HMM 边缘概率（Marginal Probability）

出发的所有可能转移路径的总概率。

2025-02-03 08:45:59 990

原创计算在时刻 t 处于状态 i 的概率

前向概率αtiαti：从一开始到ttt的可能性。后向概率βti\beta_t(i)βti：从ttt开始到结束的可能性。归一化PO∣λPO∣λ：所有路径的总可能性。最终γtiγti：你在某个时刻ttt处于状态iii的概率。

2025-02-03 08:42:52 466

原创隐马尔可夫模型（HMM）的马尔科夫性质

这就是为什么可以分解成两个独立的部分。，这正是 HMM 的马尔可夫性质。但由于 HMM 具有。

2025-02-03 08:39:17 697

原创 EM算法重新估计（Re-estimate）隐马尔可夫模型（HMM）的观测概率

bjvk公式bjvkbjvk状态j的总期望次数状态j生成符号vk的期望次数。

2025-02-03 08:17:49 470

原创 EM算法（Expectation-Maximization），用于在隐马尔可夫模型（HMM）中估计和更新模型参数（状态转移概率 A 和观测概率 B）

EM 算法是一个迭代优化算法，用于在隐变量（比如 HMM 的隐藏状态）无法直接观测的情况下，最大化模型的对数似然函数。在 M 步中，根据 E 步计算的结果，更新模型参数。这里的目标是通过不断更新模型参数。在观测序列的第一个时刻的概率。，生成部分观测序列的概率。，生成剩余观测序列的概率。

2025-02-03 08:10:57 691

原创估计状态转移概率

aij我们需要知道，从一个隐藏状态i转移到另一个隐藏状态j的概率。这个概率并不能通过直接观察到的数据计算，因为隐藏状态是我们看不到的（"隐"马尔可夫模型）。所以，我们通过模型的参数λ和观测序列O来这个转移概率。aij从状态i转移的总期望次数从状态i转移到状态j的期望次数ij这里引入了ξijξijPqtiqt1j∣OλξijtijαtitiO1O2Otβt1j。

2025-02-03 08:08:13 484

原创前向概率和后向概率

T3T=3T3。

2025-02-03 07:55:52 765

原创马尔科夫链与隐马尔可夫模型的区别

假设我们观测到一个学生每天的学习行为（比如去图书馆、在家学习），但不知道隐藏的“状态”（比如复习日或考试日）。：隐马尔可夫模型的参数估计需要考虑“所有可能路径的贡献”，而不像马尔科夫链那样直接计算某条路径的次数。，对于马尔科夫链，只要统计所有状态转移的频率，就能直接计算状态转移概率。Baum-Welch 算法是用来估计 HMM 参数（状态转移概率。

2025-02-03 07:33:11 871

原创马尔科夫链（Markov Chain）没有发射概率 B

马尔科夫链是一种序列模型，其中状态是完全可见的，没有“隐藏”部分。它的转移是根据当前状态决定的，只关心当前状态转移到下一个状态的概率。其核心是。

2025-02-03 07:29:52 998

原创维特比算法（Viterbi Algorithm）的公式推导

维特比算法是一个动态规划算法，用于解决隐马尔可夫模型（HMM）中的解码问题，即找到一个观测序列。维特比算法分为三个阶段：初始化、递归和回溯。不需要回溯指针，因为没有前驱状态。这表明，在每个时间步，隐藏状态。目标是最大化隐藏状态序列。下的最优隐藏状态序列。的最优前驱状态都来自。（高温、中温、低温）。

2025-02-02 07:24:10 556

原创维特比算法（Viterbi Algorithm）的公式化描述

v1ja0jbjo11≤j≤Nv1jt1ja0jq0jbjo1jo1初始化的过程计算的是：从起始状态q0转移到状态j，并在j状态发射观测o1的概率。

2025-02-02 07:17:30 727

原创为什么向前算法要加总所有可能的隐藏状态？

让我们换一个更准确的比喻，假设你正在押注一场比赛，你不确定哪个队伍会赢。，你只想知道“这个天气序列发生的概率是多少？”，所以你要把所有可能状态路径的概率加起来。，然后计算每种路径的概率，再累加所有路径的概率，这样的计算复杂度是。的概率，并利用上一时刻的概率进行更新。，那么我们实际上只计算了“所有路径中，最终状态是。的那些路径的概率”。这个求和的意义是：所有可能的隐藏状态在时间。在一个比赛中，所有队伍的胜率加起来确实是。，我们需要考虑所有可能的隐藏状态路径。，因为在 HMM 里，模型可能生成。

2025-02-02 06:58:58 895