自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (3)
  • 收藏
  • 关注

原创 【读论文】CONTINUOUS SPEECH RECOGNITION OF KAZAKH LANGUAGE

最小语音单元:不能再拆分为更小的、有区别意义的语音片段;辨义功能:本身无词汇 / 语法含义,但替换音素会改变单词意义。例如英语中 /p/ 和 /b/ 替换,会让 park 变成 bark。

2025-12-21 13:02:43 677

原创 【读论文】DNN-Based Acoustic Modeling for Russian Speech Recognition Using Kaldi

该文对基于DNN的俄语语音识别声学建模进行了研究。使用开源的Kaldi工具包对系统进行了训练和测试。我们创建了具有不同隐藏层数和不同隐藏单元数的tanh和p−normDNNs。在超大词汇量连续俄语语音识别任务上进行了模型的测试。与基准模型GMM - HMM系统相比,我们获得了20 %的相对WER降低。

2025-12-20 22:36:11 921

原创 混合式 DNN-HMM 系统里的后验概率、先验概率、似然概率、伪似然值以及它们的换算逻辑

DNN 擅长直接学后验概率Ps∣oP(s\mid o)Ps∣o,但 HMM 解码需要似然概率Po∣sP(o\mid s)Po∣s;通过除以先验概率PsP(s)Ps得到伪似然值,既绕过了计算复杂的PoP(o)Po,又完美适配了 HMM 的解码逻辑。

2025-12-20 11:16:28 518

原创 HMM 的状态是怎么 “存在” 的

(比如发 “爸” 这个音,要经历 “闭嘴→送气→张嘴” 三个动作阶段)。= 我们只能通过 o 反向推测,这个状态到底是不是真的存在。” ≠ 有一个叫 “状态信号” 的东西。,只能听到最终的声音信号(声波)。HMM 的状态不是静止的,会按照。,而非单个状态的 “是否存在”。HMM 就是为了描述这个 “= 这个阶段会生成一个对应的。语音的产生过程,本质是。= 发音器官正处于某个。HMM 的隐藏状态本身。—— 最终解码出的是。

2025-12-19 19:51:43 390

原创 状态对齐是连接 GMM-HMM 和 DNN-HMM 的核心桥梁

是连接 GMM-HMM 和 DNN-HMM 的核心桥梁。

2025-12-19 16:56:56 787

原创 DeepSpeech模型推导

Xx1y1x2y2X{(x1y1x2y2...:训练数据集,每个样本是“(输入频谱, 输出字符序列)”对;xix^{(i)}xi:第i个样本的输入频谱序列(比如 “cat” 是第 1 个样本,记为(x^{(1)}));TiT^{(i)}Ti:第i个样本的输入长度(帧数量)(比如 “cat” 样本的T15T15,即 5 帧);xtix_t^{(i)}xti​:第i个样本的第t帧频谱(比如 “cat” 样本的第 2 帧是x2。

2025-12-06 18:55:32 909

原创 HMM-ANN hybird models(隐马尔可夫和神经网络的混合模型)推导

将神经网络(ANN)集成到隐马尔可夫模型(HMM)框架中的语音识别(STT)模型,核心是用神经网络替代 HMM 传统的 “发射概率模型”(Emission Model),以提升建模能力。相关概念。

2025-12-01 11:49:26 781

原创 LayerNorm 的计算逻辑

因为 BatchNorm 是为图像 / CNN任务设计的,而这类任务的通道是 “独立的局部特征”—— 按列算会破坏不同通道的语义独立性,所以 BatchNorm 选择 “按通道(行)算”;但 LayerNorm 是为文本 / 序列任务设计的,这类任务的通道是 “同一对象的语义维度”—— 按列算不仅不会破坏特征,反而能稳定同一对象的语义分布,所以 LayerNorm 选择 “按样本(列)算”

2025-11-29 17:30:58 693

原创 BatchNorm 的计算逻辑

均值和标准差的计算公式如下(代码中均值用mean表示,标准差用std表示):μn1​Σi1n​xi​σn1​Σi1n​xi​−μ2​。

2025-11-29 13:38:48 881

原创 循环神经网络(RNN)解惑

设输入序列为Xx1x2xTXx1​x2​...xT​T 是序列总长度(总时间步);xtx_txt​是第 t 个时间步的输入(维度:[batch_size, input_dim],batch_size 为批量大小,input_dim 为输入特征数)。

2025-11-28 18:09:39 835

原创 AlexNet网络模型逐层理解

例如,在 ImageNet 分类任务中,某些通道可能对 “动物的头部”“车辆的轮子” 等关键部件敏感;这些特征直接反映了图像中 “有什么物体部件”,是全连接层进行最终分类的核心依据。

2025-10-27 22:29:11 599

原创 PyTorch中的索引与切片

在 PyTorch 中,张量()的索引与切片操作和 Python 的列表、NumPy 数组类似,但针对高维张量做了扩展,支持灵活的维度访问和修改。

2025-10-16 22:49:20 1512

原创 从卷积计算机公式看待AlexNet 第一个卷积层的输入图像尺寸的争议

如果使用的是ImageNet 预训练模型(如 PyTorch 的),默认输入是224×224padding=2。如果是严格复现 原始 Caffe AlexNet,输入应为 227×227,padding=0。从功能等价与现代实现的角度看,这种写法不会破坏网络结构或性能,因此是一种合理的工程复现方式,并且主流框架(包括 PyTorch 官方)都采用这种做法。

2025-10-10 20:13:53 267

原创 PyTorch中torch.randn()函数的应用场景

PyTorch中的torch.randn()函数用于生成服从标准正态分布的随机张量。它支持生成不同维度的张量,包括标量、向量、矩阵及更高维张量,并可调整分布参数。通过设置随机种子可控制结果的重复性。该函数广泛应用于神经网络权重初始化(如He/Xavier初始化)、数据增强(添加高斯噪声)、生成对抗网络(作为生成器输入)以及测试数据生成等场景。在权重初始化时,常结合特定分布调整方法(如kaiming_normal_)来优化训练效果。函数还支持生成大规模张量用于性能测试。

2025-10-08 11:58:28 1622

原创 如何理解原地修改权重(in-place modification)

原地修改权重”(in-place modification)指的是函数直接修改输入对象本身的值,而不是创建一个新的对象并返回。在。

2025-10-07 18:03:12 317

原创 如何理解 fan_in与 fan_out

在神经网络参数初始化中,fan_in是一个用于描述层输入维度的指标,具体指(或 “扇入”),是计算初始化权重分布参数(如标准差)的关键依据。

2025-10-07 17:57:41 352

原创 可重复性与随机性的控制(随机种子Seed)

PyTorch的torch.manual_seed(seed)函数用于设置随机数种子,确保代码可复现性。

2025-10-07 13:08:29 186

原创 如何理解中的(*size, *,...)可变参数及keyword-only参数

本文讲解了两种可变参数、keyword-only参数及其应用技巧

2025-10-06 13:18:07 224

原创 新建的虚拟环境不在anaconda安装目录下的envs文件夹中

新建的虚拟环境不在anaconda安装目录下的envs文件夹中

2025-09-30 17:29:17 339

原创 用transmac制作黑苹果引导盘无法识别

插入u盘,将U盘在「磁盘工具」中初始化,并在「终端」输入一下命令,其中「MyVolume」代表自己的U盘名称,重要的事再说一遍 MyVolume 是你U盘的名字,格式化之后U盘的名字。利用VMware虚拟机安装macOS系统,通过这个制作启动盘,比较麻烦。格式:Mac OS扩展(日志式)可引导ISO镜像下载网站。方案:GUID 分区图。需要充值开通会员下载。

2022-02-02 20:44:03 4817

DirectX修复工具4.0最新版

DirectX修复工具4.0最新版是一款功能强大的系统DirectX组件修复工具,软件一键完成检测修复,只要简单一键选择就能完成检测、修复、注册等一系列问题,使用门槛低,操作简单,真正的傻瓜设计,使用DirectX修复工具可自动更新C++组件且完美修复0xc000007b问题异常

2025-10-09

OneTab(v1.86)旧版本

新版的OneTab特别难用,网上找了很多旧版的总是报错:无法安装扩展程序因为它使用了不受支持的清单版本或者CRX_HEADER_INVALID 这个版本没有问题,直接拖入chrome://extensions/安装

2025-10-09

计算机网络(第7版)的PPT

谢希仁 编著 PPT不是PDF 官方下载的

2022-07-13

王道数据结构PPT讲义

王道数据结构PPT讲义 没有水印 一个一个去除的

2022-03-08

AMD刷BIOS教程XFX RX560刷BIOS教程附带XFX RX560可刷BIOS

XFX RX560刷BIOS教程附带XFX RX560可刷BIOS 蓝宝石 黑狼 原版BIOS 华硕

2022-02-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除