Jorunk-优快云博客

原创【读论文】CONTINUOUS SPEECH RECOGNITION OF KAZAKH LANGUAGE

最小语音单元：不能再拆分为更小的、有区别意义的语音片段；辨义功能：本身无词汇 / 语法含义，但替换音素会改变单词意义。例如英语中 /p/ 和 /b/ 替换，会让 park 变成 bark。

2025-12-21 13:02:43 677

原创【读论文】DNN-Based Acoustic Modeling for Russian Speech Recognition Using Kaldi

该文对基于DNN的俄语语音识别声学建模进行了研究。使用开源的Kaldi工具包对系统进行了训练和测试。我们创建了具有不同隐藏层数和不同隐藏单元数的tanh和p−normDNNs。在超大词汇量连续俄语语音识别任务上进行了模型的测试。与基准模型GMM - HMM系统相比，我们获得了20 %的相对WER降低。

2025-12-20 22:36:11 921

原创混合式 DNN-HMM 系统里的后验概率、先验概率、似然概率、伪似然值以及它们的换算逻辑

DNN 擅长直接学后验概率Ps∣oP(s\mid o)Ps∣o，但 HMM 解码需要似然概率Po∣sP(o\mid s)Po∣s；通过除以先验概率PsP(s)Ps得到伪似然值，既绕过了计算复杂的PoP(o)Po，又完美适配了 HMM 的解码逻辑。

2025-12-20 11:16:28 518

原创 HMM 的状态是怎么 “存在” 的

（比如发 “爸” 这个音，要经历 “闭嘴→送气→张嘴” 三个动作阶段）。= 我们只能通过 o 反向推测，这个状态到底是不是真的存在。” ≠ 有一个叫 “状态信号” 的东西。，只能听到最终的声音信号（声波）。HMM 的状态不是静止的，会按照。，而非单个状态的 “是否存在”。HMM 就是为了描述这个 “= 这个阶段会生成一个对应的。语音的产生过程，本质是。= 发音器官正处于某个。HMM 的隐藏状态本身。—— 最终解码出的是。

2025-12-19 19:51:43 390

原创状态对齐是连接 GMM-HMM 和 DNN-HMM 的核心桥梁

是连接 GMM-HMM 和 DNN-HMM 的核心桥梁。

2025-12-19 16:56:56 787

原创 DeepSpeech模型推导

Xx1y1x2y2X{(x1y1x2y2...：训练数据集，每个样本是“(输入频谱, 输出字符序列)”对；xix^{(i)}xi：第i个样本的输入频谱序列（比如 “cat” 是第 1 个样本，记为(x^{(1)})）；TiT^{(i)}Ti：第i个样本的输入长度（帧数量）（比如 “cat” 样本的T15T15，即 5 帧）；xtix_t^{(i)}xti：第i个样本的第t帧频谱（比如 “cat” 样本的第 2 帧是x2。

2025-12-06 18:55:32 909

原创 HMM-ANN hybird models（隐马尔可夫和神经网络的混合模型）推导

将神经网络（ANN）集成到隐马尔可夫模型（HMM）框架中的语音识别（STT）模型，核心是用神经网络替代 HMM 传统的 “发射概率模型”（Emission Model），以提升建模能力。相关概念。

2025-12-01 11:49:26 781

原创 LayerNorm 的计算逻辑

因为 BatchNorm 是为图像 / CNN任务设计的，而这类任务的通道是 “独立的局部特征”—— 按列算会破坏不同通道的语义独立性，所以 BatchNorm 选择 “按通道（行）算”；但 LayerNorm 是为文本 / 序列任务设计的，这类任务的通道是 “同一对象的语义维度”—— 按列算不仅不会破坏特征，反而能稳定同一对象的语义分布，所以 LayerNorm 选择 “按样本（列）算”

2025-11-29 17:30:58 693

原创 BatchNorm 的计算逻辑

均值和标准差的计算公式如下（代码中均值用mean表示，标准差用std表示）:μn1Σi1nxiσn1Σi1nxi−μ2。

2025-11-29 13:38:48 881

原创循环神经网络（RNN）解惑

设输入序列为Xx1x2xTXx1x2...xTT 是序列总长度（总时间步）；xtx_txt是第 t 个时间步的输入（维度：[batch_size, input_dim]，batch_size 为批量大小，input_dim 为输入特征数）。

2025-11-28 18:09:39 835

原创 AlexNet网络模型逐层理解

例如，在 ImageNet 分类任务中，某些通道可能对 “动物的头部”“车辆的轮子” 等关键部件敏感；这些特征直接反映了图像中 “有什么物体部件”，是全连接层进行最终分类的核心依据。

2025-10-27 22:29:11 599

原创 PyTorch中的索引与切片

在 PyTorch 中，张量（）的索引与切片操作和 Python 的列表、NumPy 数组类似，但针对高维张量做了扩展，支持灵活的维度访问和修改。

2025-10-16 22:49:20 1512

原创从卷积计算机公式看待AlexNet 第一个卷积层的输入图像尺寸的争议

如果使用的是ImageNet 预训练模型（如 PyTorch 的），默认输入是224×224padding=2。如果是严格复现原始 Caffe AlexNet，输入应为 227×227，padding=0。从功能等价与现代实现的角度看，这种写法不会破坏网络结构或性能，因此是一种合理的工程复现方式，并且主流框架（包括 PyTorch 官方）都采用这种做法。

2025-10-10 20:13:53 267

原创 PyTorch中torch.randn()函数的应用场景

PyTorch中的torch.randn()函数用于生成服从标准正态分布的随机张量。它支持生成不同维度的张量，包括标量、向量、矩阵及更高维张量，并可调整分布参数。通过设置随机种子可控制结果的重复性。该函数广泛应用于神经网络权重初始化（如He/Xavier初始化）、数据增强（添加高斯噪声）、生成对抗网络（作为生成器输入）以及测试数据生成等场景。在权重初始化时，常结合特定分布调整方法（如kaiming_normal_）来优化训练效果。函数还支持生成大规模张量用于性能测试。

2025-10-08 11:58:28 1622

原创如何理解原地修改权重（in-place modification）

原地修改权重”（in-place modification）指的是函数直接修改输入对象本身的值，而不是创建一个新的对象并返回。在。

2025-10-07 18:03:12 317

原创如何理解 fan_in与 fan_out

在神经网络参数初始化中，fan_in是一个用于描述层输入维度的指标，具体指（或 “扇入”），是计算初始化权重分布参数（如标准差）的关键依据。

2025-10-07 17:57:41 352

原创可重复性与随机性的控制（随机种子Seed）

PyTorch的torch.manual_seed(seed)函数用于设置随机数种子，确保代码可复现性。

2025-10-07 13:08:29 186

原创如何理解中的(size, ,...)可变参数及keyword-only参数

本文讲解了两种可变参数、keyword-only参数及其应用技巧

2025-10-06 13:18:07 224

原创新建的虚拟环境不在anaconda安装目录下的envs文件夹中

新建的虚拟环境不在anaconda安装目录下的envs文件夹中

2025-09-30 17:29:17 339

原创用transmac制作黑苹果引导盘无法识别

插入u盘，将U盘在「磁盘工具」中初始化，并在「终端」输入一下命令，其中「MyVolume」代表自己的U盘名称，重要的事再说一遍 MyVolume 是你U盘的名字，格式化之后U盘的名字。利用VMware虚拟机安装macOS系统，通过这个制作启动盘，比较麻烦。格式：Mac OS扩展（日志式）可引导ISO镜像下载网站。方案：GUID 分区图。需要充值开通会员下载。

2022-02-02 20:44:03 4817