- 博客(20)
- 资源 (3)
- 收藏
- 关注
原创 【读论文】CONTINUOUS SPEECH RECOGNITION OF KAZAKH LANGUAGE
最小语音单元:不能再拆分为更小的、有区别意义的语音片段;辨义功能:本身无词汇 / 语法含义,但替换音素会改变单词意义。例如英语中 /p/ 和 /b/ 替换,会让 park 变成 bark。
2025-12-21 13:02:43
677
原创 【读论文】DNN-Based Acoustic Modeling for Russian Speech Recognition Using Kaldi
该文对基于DNN的俄语语音识别声学建模进行了研究。使用开源的Kaldi工具包对系统进行了训练和测试。我们创建了具有不同隐藏层数和不同隐藏单元数的tanh和p−normDNNs。在超大词汇量连续俄语语音识别任务上进行了模型的测试。与基准模型GMM - HMM系统相比,我们获得了20 %的相对WER降低。
2025-12-20 22:36:11
921
原创 混合式 DNN-HMM 系统里的后验概率、先验概率、似然概率、伪似然值以及它们的换算逻辑
DNN 擅长直接学后验概率Ps∣oP(s\mid o)Ps∣o,但 HMM 解码需要似然概率Po∣sP(o\mid s)Po∣s;通过除以先验概率PsP(s)Ps得到伪似然值,既绕过了计算复杂的PoP(o)Po,又完美适配了 HMM 的解码逻辑。
2025-12-20 11:16:28
518
原创 HMM 的状态是怎么 “存在” 的
(比如发 “爸” 这个音,要经历 “闭嘴→送气→张嘴” 三个动作阶段)。= 我们只能通过 o 反向推测,这个状态到底是不是真的存在。” ≠ 有一个叫 “状态信号” 的东西。,只能听到最终的声音信号(声波)。HMM 的状态不是静止的,会按照。,而非单个状态的 “是否存在”。HMM 就是为了描述这个 “= 这个阶段会生成一个对应的。语音的产生过程,本质是。= 发音器官正处于某个。HMM 的隐藏状态本身。—— 最终解码出的是。
2025-12-19 19:51:43
390
原创 DeepSpeech模型推导
Xx1y1x2y2X{(x1y1x2y2...:训练数据集,每个样本是“(输入频谱, 输出字符序列)”对;xix^{(i)}xi:第i个样本的输入频谱序列(比如 “cat” 是第 1 个样本,记为(x^{(1)}));TiT^{(i)}Ti:第i个样本的输入长度(帧数量)(比如 “cat” 样本的T15T15,即 5 帧);xtix_t^{(i)}xti:第i个样本的第t帧频谱(比如 “cat” 样本的第 2 帧是x2。
2025-12-06 18:55:32
909
原创 HMM-ANN hybird models(隐马尔可夫和神经网络的混合模型)推导
将神经网络(ANN)集成到隐马尔可夫模型(HMM)框架中的语音识别(STT)模型,核心是用神经网络替代 HMM 传统的 “发射概率模型”(Emission Model),以提升建模能力。相关概念。
2025-12-01 11:49:26
781
原创 LayerNorm 的计算逻辑
因为 BatchNorm 是为图像 / CNN任务设计的,而这类任务的通道是 “独立的局部特征”—— 按列算会破坏不同通道的语义独立性,所以 BatchNorm 选择 “按通道(行)算”;但 LayerNorm 是为文本 / 序列任务设计的,这类任务的通道是 “同一对象的语义维度”—— 按列算不仅不会破坏特征,反而能稳定同一对象的语义分布,所以 LayerNorm 选择 “按样本(列)算”
2025-11-29 17:30:58
693
原创 BatchNorm 的计算逻辑
均值和标准差的计算公式如下(代码中均值用mean表示,标准差用std表示):μn1Σi1nxiσn1Σi1nxi−μ2。
2025-11-29 13:38:48
881
原创 循环神经网络(RNN)解惑
设输入序列为Xx1x2xTXx1x2...xTT 是序列总长度(总时间步);xtx_txt是第 t 个时间步的输入(维度:[batch_size, input_dim],batch_size 为批量大小,input_dim 为输入特征数)。
2025-11-28 18:09:39
835
原创 AlexNet网络模型逐层理解
例如,在 ImageNet 分类任务中,某些通道可能对 “动物的头部”“车辆的轮子” 等关键部件敏感;这些特征直接反映了图像中 “有什么物体部件”,是全连接层进行最终分类的核心依据。
2025-10-27 22:29:11
599
原创 PyTorch中的索引与切片
在 PyTorch 中,张量()的索引与切片操作和 Python 的列表、NumPy 数组类似,但针对高维张量做了扩展,支持灵活的维度访问和修改。
2025-10-16 22:49:20
1512
原创 从卷积计算机公式看待AlexNet 第一个卷积层的输入图像尺寸的争议
如果使用的是ImageNet 预训练模型(如 PyTorch 的),默认输入是224×224padding=2。如果是严格复现 原始 Caffe AlexNet,输入应为 227×227,padding=0。从功能等价与现代实现的角度看,这种写法不会破坏网络结构或性能,因此是一种合理的工程复现方式,并且主流框架(包括 PyTorch 官方)都采用这种做法。
2025-10-10 20:13:53
267
原创 PyTorch中torch.randn()函数的应用场景
PyTorch中的torch.randn()函数用于生成服从标准正态分布的随机张量。它支持生成不同维度的张量,包括标量、向量、矩阵及更高维张量,并可调整分布参数。通过设置随机种子可控制结果的重复性。该函数广泛应用于神经网络权重初始化(如He/Xavier初始化)、数据增强(添加高斯噪声)、生成对抗网络(作为生成器输入)以及测试数据生成等场景。在权重初始化时,常结合特定分布调整方法(如kaiming_normal_)来优化训练效果。函数还支持生成大规模张量用于性能测试。
2025-10-08 11:58:28
1622
原创 如何理解原地修改权重(in-place modification)
原地修改权重”(in-place modification)指的是函数直接修改输入对象本身的值,而不是创建一个新的对象并返回。在。
2025-10-07 18:03:12
317
原创 如何理解 fan_in与 fan_out
在神经网络参数初始化中,fan_in是一个用于描述层输入维度的指标,具体指(或 “扇入”),是计算初始化权重分布参数(如标准差)的关键依据。
2025-10-07 17:57:41
352
原创 可重复性与随机性的控制(随机种子Seed)
PyTorch的torch.manual_seed(seed)函数用于设置随机数种子,确保代码可复现性。
2025-10-07 13:08:29
186
原创 用transmac制作黑苹果引导盘无法识别
插入u盘,将U盘在「磁盘工具」中初始化,并在「终端」输入一下命令,其中「MyVolume」代表自己的U盘名称,重要的事再说一遍 MyVolume 是你U盘的名字,格式化之后U盘的名字。利用VMware虚拟机安装macOS系统,通过这个制作启动盘,比较麻烦。格式:Mac OS扩展(日志式)可引导ISO镜像下载网站。方案:GUID 分区图。需要充值开通会员下载。
2022-02-02 20:44:03
4817
DirectX修复工具4.0最新版
2025-10-09
OneTab(v1.86)旧版本
2025-10-09
AMD刷BIOS教程XFX RX560刷BIOS教程附带XFX RX560可刷BIOS
2022-02-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅