
自动语音识别
文章平均质量分 86
Law-Yao
数字信号处理与人工智能相关的软硬件系统实现工作。
展开
-
随笔记录——NLP与ASR的数据增强
自然语言处理(NLP: Natural Language Processing)与语音识别(ASR: Automatic Speech Recognition)都是典型的序列识别任务,现阶段皆可以按Transformer模型架构进行建模处理,如SAN-M、BERT、BART、GPT2、T5、Switch-Transformer等模型。Transformer模型的输入,表示为Sequence embeddings(序列特征),其中NLP的输入Embedding、表示Token的高维矢量编码,ASR的输入特原创 2022-04-05 20:33:27 · 3890 阅读 · 0 评论 -
Bert/Transformer模型压缩与优化加速
前言Bert/Transformer结构及其变体,已成为自然语言处理 (NLP)、语音识别 (ASR)等领域的主流序列建模结构。并且,相比于卷积操作的局部特征提取能力、以及平移不变性,Self-attention的全局Context信息编码能力,能够使视觉模型具备更强的特征表达能力、与领域适应性。因此在计算机视觉领域,Vision Transformer结构也日益流行、方兴未艾。然而,Transformer模型的高计算复杂度与参数量,限制了模型的推理部署(包括服务端与移动端应用),其计算、存储与运行时内原创 2021-09-14 20:13:50 · 10376 阅读 · 5 评论 -
ADMM深度模型稀疏化训练
基本原理参考论文:https://arxiv.org/abs/1804.03294GitHub:https://github.com/microsoft/nni/blob/master/nni/algorithms/compression/pytorch/pruning/admm_pruner.py组合优化问题基本的优化问题:引入辅助变量、对偶变量,构造ADMM正则化约束:交替方向优化求解固定Z与U,通过SGD优化求解得到:固定W,更新得到Z与U:..原创 2020-12-19 16:46:41 · 2356 阅读 · 3 评论 -
端到端Transformer模型的混合精度后量化
端到端Transformer模型的混合精度后量化,需要克服如下难点:Transformer自回归模型,包含了Encoder与Decoder;端到端模型压缩的支持,需要考虑自回归逻辑(Beam Search)的复杂实现; 后量化需要考虑合理、有效的策略,确保量化鲁棒性; 混合精度决策需要考虑实现的高效性,通常采用Label-free方式;具体可参考端到端语音识别的移动端解决方案;...原创 2020-11-18 14:01:34 · 2036 阅读 · 0 评论 -
具备记忆单元的Transformer ASR (SAN-M)
"SAN-M: Memory Equipped Self-Attention for End-to-End Speech Recognition"这篇文章巧妙的将DFSMN记忆单元、融合到Transformer ASR模型中,取得了显著的改进效果。Paper地址:https://arxiv.org/abs/2006.01713Introduction传统ASR方案采用混合架构,包含了单独的AM、PM、LM; 端到端的ASR方案(将AM、PM、LM集成到一个模型),主要有两种方案: AM+CT原创 2020-08-20 11:51:03 · 3486 阅读 · 0 评论