【飞桨PaddleSpeech语音技术课程】— 语音识别-Transformer

小湉湉

已于 2022-11-04 11:00:35 修改

阅读量2.6k

点赞数 1

分类专栏：语音识别 MachineLearning 文章标签：语音识别 transformer 人工智能

于 2022-10-28 16:06:13 首次发布

本文链接：https://blog.youkuaiyun.com/qq_21275321/article/details/127573231

版权

使用 Transformer 进行语音识别

0. 视频理解与字幕

# 下载demo视频
!test -f work/source/subtitle_demo1.mp4 || wget -c https://paddlespeech.bj.bcebos.com/demos/asr_demos/subtitle_demo1.mp4 -P work/source/

import IPython.display as dp
from IPython.display import HTML
html_str = '''
<video controls width="600" height="360" src="{}">animation</video>
'''.format("work/source/subtitle_demo1.mp4 ")
dp.display(HTML(html_str))
print ("ASR结果为：当我说我可以把三十年的经验变成一个准确的算法他们说不可能当我说我们十个人就能实现对十九个城市变电站七乘二十四小时的实时监管他们说不可能")

Demo实现：https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/demos/automatic_video_subtitiles/

1. 前言

1.1 背景知识

语音识别(Automatic Speech Recognition, ASR) 是一项从一段音频中提取出语言文字内容的任务。
目前该技术已经广泛应用于我们的工作和生活当中，包括生活中使用手机的语音转写，工作上使用的会议记录等等。

(出处：DLHLP 李宏毅语音识别课程PPT)

1.2 发展历史

早期，生成模型流行阶段：GMM-HMM (上世纪90年代)
深度学习爆发初期： DNN，CTC[1] （2006）
RNN 流行，Attention 提出初期: RNN-T[2]（2013）, DeepSpeech[3] (2014)， DeepSpeech2 [4] (2016)， LAS[5]（2016）
Attetion is all you need 提出开始[6]: Transformer[6]（2017），Transformer-transducer[7]（2020） Conformer[8] （2020）