
语音
文章平均质量分 96
语音识别语音合成
noobiee
一般路过的普通学生
展开
-
Speech Processing (LASC11158)
Consonants(辅音) are speech sounds that are made with some degree of constriction in the vocal tract 声道.Phoneticians define consonants according to three articulatory dimensions:定位元音 (Cardinal vowels): 当舌头位于极端的位置,发出的元音就是定位元音,不论位置的前后或高低。Full IPA chart designe原创 2024-03-10 07:57:37 · 1376 阅读 · 0 评论 -
连接时序分类 Connectionist Temporal Classification (CTC)
CTC全称Connectionist temporal classification,是一种常用在语音识别、文本识别等领域的算法,用来解决输入和输出序列长度不一、无法对齐的问题。在CRNN中,它实际上就是模型对应的损失函数(CTC loss)。原创 2024-03-10 07:56:10 · 3020 阅读 · 0 评论 -
语音合成综述Speech Synthesis
语音信号的产生分为两个阶段,信息编码和生理控制。首先在大脑中出现某种想要表达的想法,然后由大脑将其编码为具体的语言文字序列,及语音中可能存在的强调、重读等韵律信息。经过语言的组织,大脑通过控制发音器官肌肉的运动,产生出相应的语音信号。其中第一阶段主要涉及人脑语言处理方面,第二阶段涉及语音信号产生的生理机制。 从滤波的角度,人体涉及发音的器官可以分为两部分:激励系统和声道系统。激励系统中,储存于肺部的空气源,经过胸腔的压缩排出,经过气管进入声带,根据发音单元决定是否产生振动,形成准周期的脉冲空气激励流或原创 2023-11-24 20:05:46 · 5647 阅读 · 0 评论