专栏总目录
1.1 走进语音识别
1.1.1语音识别的定义
定义:语音识别是让机器具备自动接收和分析人类的语音,并最终输出对应文本的过程。
目标:将输入语音转化为文字的输出
目标实现条件:
提前规定好该系统可以接收的语音输入形式,比如单个词、命令短语和连续语音。
对应的文本输出形式,可以直接翻译出来的对应文本,也可以是经过编码的特殊字符,比如组成发音的基本单位——音素。由此可知,系统的输入和输出不同,决定了语音识别的任务是多种多样的。核心模块包括:
A. 接收输入语音的麦克风设备
B. 负责自动分析语音信号的程序
C. 完成语音到文字的翻译程序
D. 将最终语音到文字的翻译程序
1.1.2 语音识别任务的分类
分类依据:应用场景中的不同任务、从研究者的实现目标
(1) 从应用者角度的分类
【根据输入语音类型和输出文本形式不同】:
编号 | 任务类型 | 输入 | 核心功能 | 输出 | 应用场景 |
1 | 命令式 | 特定命令的关键词语音 | a.识别唤醒关键词 b.识别命令关键词,搜索程序并控制设备上的程序 c.识别命令并搜索相关业务 d.分析说话人的语音特征并搜索可能的身份 |
a.程序的工作/休眠状态 b.设备上的程序名称或类型,以及相关状态 c.业务名称或类型 d.身份编码 |
a.程序的唤醒 b.操控设备 c.银行业务系统 d.声纹安保系统 |
2 | 实时转译 | 一段连续的语音 | 分析和识别语音所表达的文字信息 | 语音对应的文字稿 | a.输入法中的语音输入,文字输出 b.视频加字幕 c.会议实时记录 |
3 | 问答式 | 多次口语提问 | 识别每一次提问,搜索可能的回答 | 定制化的文字回答 | a.手机语音助手 b.手机导航 c.机器人助手 |
(2)从研究者角度分类
A. 根据说话的内容不同:孤立词、连接词和连续语音识别