k2相关文章

文章探讨了RNN-T预测网络在语音识别中的独特作用,尤其是子词建模的RNNT-SLP优于CTC模型。同时,介绍了Zipformer模型的创新,包括多帧率学习、复用注意力权重和激活值约束机制,以提高模型性能和训练稳定性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

核心算法库 k2、通用语音数据处理工具包 Lhotse、解决方案集合 Icefall 以及服务端引擎 Sherpa

1.Rnn-Transducer with Stateless Prediction Network

结论:
从上述实验中可以看出,RNN-T预测网络的作用和传统ASR的语言模型并不等同,预测网络的最大作用似乎是阻止输出重复的建模单元。也就是说,预测网络可以控制标签的预测概率,这是一般RNN-LM无法做到的。同时,实验证明以子词为建模单元的带有无状态预测网络RNN-T(RNNT-SLP)和基线RNN-T相媲美,并且识别效果要远远好于CTC模型。这表明了将之前的输出作为输入对识别效果是有提升的,此外,至少对于中低资源的语种来说,RNN-T并不需要超过一个子词的历史来实现最优效果。RNNT-SLP在常规RNN-T的基础上有额外的优势:减少了模型总参数量,并简化了模型结构。

2.Zipformer 模型解析
论文:https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/2310.11230.pdf

Zipformer 的具体创新点,主要包括:
Downsampled encoder structure,降采样到不同的帧率,学习不同粒度的时域信息。“不同于 Conformer 只在一个固定的帧率 25Hz 操作,Zipformer 采用了一个类似于 U-Net 的结构,在不同帧率上学习不同时间分辨率的时域表征。” 解释:25Hz指的是,通常conformer会4倍下采样, 1s是(25ms, 10ms)100帧,下采样4倍就是25Hz(25帧/s)。Downsample 学习两个标量权重,用来将相邻的两帧加权求和了;Upsample 则只是简单地将每一帧复制为两帧。
Zipformer block,更深的 block 结构,通过复用注意力权重(MHAW )节省计算和内存,Non-Linear Attention利用 MHAW 模块计算好的注意力权重,沿着时间轴汇聚不同帧的向量。
BiasNorm,允许保留一定的长度信息Swoosh 激活函数,比 Swish 效果更好
ScaledAdam 优化器,根据参数大小放缩更新量,保持不同参数相对变化一致,并显式学习参数大小,比 Adam 收敛更快、效果更好。
激活值限制,为了确保训练的一致性以及避免训练出性能差的模型,我们提出 Balancer 和 Whitener,用于约束模型的激活值。
Balancer
稳定训练,激活值的另一种失败的模式是:协方差矩阵的特征值中,有一个或者少数几个特征值占据主导,剩下的特征值都特别小。这个现象通常发生在即将训练奔溃的模型中。

Whitener 模块旨在通过限制协方差矩阵的特征值尽可能相同,来鼓励模块学习更有信息量的输出分布

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值