18、语音识别模型:原理、训练与优化

语音识别模型:原理、训练与优化

1. 模型结构与工作原理

1.1 卷积层输出

卷积操作的输出尺寸减半,高为 25 像素,宽为 20 像素。由于使用了 8 个滤波器,图像深度变为 8 个通道。

1.2 全连接层

全连接层是一种不同类型的模式匹配过程。与在输入上滑动小窗口不同,输入张量中的每个值都有一个权重。其结果是在比较每个值后,指示输入与权重的匹配程度。可以将其视为全局模式匹配,即有一个期望作为输入的理想结果,输出则是该理想结果(保存在权重中)与实际输入的接近程度。模型中的每个类别都有自己的权重,例如“静音”“未知”“是”和“否”,会生成 4 个输出值。输入有 4000 个值(25 * 20 * 8),因此每个类别由 4000 个权重表示。

1.3 软最大化层

软最大化层有助于增大最高输出与最接近竞争对手之间的差异,且不改变它们的相对顺序(即全连接层中产生最大值的类别仍将是最高的),但有助于产生更有用的分数。这个分数通常非正式地称为概率,但严格来说,在没有对输入数据的实际混合情况进行更多校准的情况下,不能可靠地将其用作概率。例如,如果检测器中有更多单词,像“antidisestablishmentarianism”这样不常见的单词出现的可能性可能比“okay”小,但根据训练数据的分布,原始分数可能无法反映这一点。

1.4 偏置和激活函数

除了这些主要层之外,全连接层和卷积层的结果还会加上偏置,以微调其输出,并且每层之后都有一个修正线性单元(ReLU)激活函数。ReLU 确保输出不小于零,将任何负结果设置为最小值零。这种类型的激活函数是使深度学习变得更加有效的突破之一

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值