《语音识别模式、算法设计与实践》——第一章语音识别概述

原创

已于 2024-06-18 15:17:10 修改 · 1.7k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2024-04-03 11:44:35 首次发布

专栏总目录

定义：语音识别是让机器具备自动接收和分析人类的语音，并最终输出对应文本的过程。

目标：将输入语音转化为文字的输出

目标实现条件：

提前规定好该系统可以接收的语音输入形式，比如单个词、命令短语和连续语音。

对应的文本输出形式，可以直接翻译出来的对应文本，也可以是经过编码的特殊字符，比如组成发音的基本单位——音素。由此可知，系统的输入和输出不同，决定了语音识别的任务是多种多样的。核心模块包括：

A. 接收输入语音的麦克风设备

B. 负责自动分析语音信号的程序

C. 完成语音到文字的翻译程序

D. 将最终语音到文字的翻译程序

分类依据：应用场景中的不同任务、从研究者的实现目标

（1）从应用者角度的分类

【根据输入语音类型和输出文本形式不同】：

编号	任务类型	输入	核心功能	输出	应用场景
1	命令式	特定命令的关键词语音	a.识别唤醒关键词 b.识别命令关键词，搜索程序并控制设备上的程序 c.识别命令并搜索相关业务 d.分析说话人的语音特征并搜索可能的身份	a.程序的工作/休眠状态 b.设备上的程序名称或类型，以及相关状态 c.业务名称或类型 d.身份编码	a.程序的唤醒 b.操控设备 c.银行业务系统 d.声纹安保系统
2	实时转译	一段连续的语音	分析和识别语音所表达的文字信息	语音对应的文字稿	a.输入法中的语音输入，文字输出 b.视频加字幕 c.会议实时记录
3	问答式	多次口语提问	识别每一次提问，搜索可能的回答	定制化的文字回答	a.手机语音助手 b.手机导航 c.机器人助手