【飞桨PaddleSpeech语音技术课程】— 语音识别-Deepspeech2

小湉湉

已于 2022-10-28 15:41:49 修改

阅读量3.6k

点赞数 3

分类专栏：语音识别 MachineLearning 文章标签：语音识别 paddlepaddle 人工智能

于 2022-10-28 15:35:14 首次发布

本文链接：https://blog.youkuaiyun.com/qq_21275321/article/details/127572161

版权

(以下内容搬运自飞桨PaddleSpeech语音技术课程，点击链接可直接运行源码)

语音识别——DeepSpeech2

0. 视频理解与字幕

# 下载demo视频
!test -f work/source/subtitle_demo1.mp4 || wget https://paddlespeech.bj.bcebos.com/demos/asr_demos/subtitle_demo1.mp4 -P work/source/

import IPython.display as dp
from IPython.display import HTML
html_str = '''
<video controls width="600" height="360" src="{}">animation</video>
'''.format("work/source/subtitle_demo1.mp4 ")
dp.display(HTML(html_str))
print ("ASR结果为：当我说我可以把三十年的经验变成一个准确的算法他们说不可能当我说我们十个人就能实现对十九个城市变电站七乘二十四小时的实时监管他们说不可能")

Demo实现：https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/demos/automatic_video_subtitiles/

1. 前言

1.1 背景知识

语音识别(Automatic Speech Recognition, ASR) 是一项从一段音频中提取出语言文字内容的任务。

(出处：DLHLP 李宏毅语音识别课程PPT)

目前该技术已经广泛应用于我们的工作和生活当中，包括生活中使用手机的语音转写，工作上使用的会议记录等等。

1.2 发展历史

早期，生成模型流行阶段：GMM-HMM (上世纪90年代)
深度学习爆发初期： DNN，CTC[1] （2006）
RNN流行，Attention提出初期: RNN-T[2]（2013）, DeepSpeech[3] (2014)， DeepSpeech2 [4] (2016)， LAS[5]（2016）
Attetion is all you need提出开始[6]: Transformer[6]（2017），Transformer-transducer[7]（2020） Conformer[8] （2020