《语音识别模式、算法设计与实践》——第一章 语音识别概述

专栏总目录        

1.1 走进语音识别

1.1.1语音识别的定义

定义:语音识别是让机器具备自动接收和分析人类的语音,并最终输出对应文本的过程。

目标:将输入语音转化为文字的输出

                

目标实现条件:

提前规定好该系统可以接收的语音输入形式,比如单个词、命令短语和连续语音。

对应的文本输出形式,可以直接翻译出来的对应文本,也可以是经过编码的特殊字符,比如组成发音的基本单位——音素。由此可知,系统的输入和输出不同,决定了语音识别的任务是多种多样的。核心模块包括:

        A. 接收输入语音的麦克风设备

        B. 负责自动分析语音信号的程序

        C. 完成语音到文字的翻译程序

        D. 将最终语音到文字的翻译程序

1.1.2 语音识别任务的分类

分类依据:应用场景中的不同任务、从研究者的实现目标

(1) 从应用者角度的分类

【根据输入语音类型和输出文本形式不同】:

编号 任务类型 输入 核心功能 输出 应用场景
1 命令式 特定命令的关键词语音

a.识别唤醒关键词

b.识别命令关键词,搜索程序并控制设备上的程序

c.识别命令并搜索相关业务

d.分析说话人的语音特征并搜索可能的身份

a.程序的工作/休眠状态

b.设备上的程序名称或类型,以及相关状态

c.业务名称或类型

d.身份编码

a.程序的唤醒

b.操控设备

c.银行业务系统

d.声纹安保系统

2 实时转译 一段连续的语音 分析和识别语音所表达的文字信息 语音对应的文字稿

a.输入法中的语音输入,文字输出

b.视频加字幕

c.会议实时记录

3 问答式 多次口语提问 识别每一次提问,搜索可能的回答 定制化的文字回答

a.手机语音助手

b.手机导航

c.机器人助手

(2)从研究者角度分类

        A. 根据说话的内容不同:孤立词、连接词和连续语音识别

         

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

静候光阴

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值