
语音 (深度学习)
文章平均质量分 86
一百篇语音 (深度学习)教程
Mrrunsen
这个作者很懒,什么都没留下…
展开
-
深度学习和语音系列教程 5-100:求共振峰
文章目录1 基音频率1.1 基音频率的查看2 共振峰的获取2.1 倒谱法求共振峰2.2 测试结果2.3 共振峰位置坐标2.4 多种情况下的共振峰测试1 基音频率1.1 基音频率的查看基音频率就是发浊音时,气流通过声门使声带产生张弛震荡式振动,产生准周期的激励脉冲串。这种声带振动的频率称为基音频率。通过软件Audition就可以查看基音频率,语谱图最后一条声纹对应的频率就是基音频率。下图为女性元音’a‘的发音,语音基本信息为:采样率8000Hz,单声道,16位。通过软件Audition可以直接查看原创 2021-09-05 12:27:25 · 948 阅读 · 0 评论 -
深度学习和语音系列教程 4-100:语音到文本模型处理
Text features文本特征是从语音到文本模型或转录模型的输出转录本派生的任何语音特征。Text FeatureDescriptionUse caseKeyword frequency单词“basketball”相对于单词总数的计数,有助于确定主题。Useful to determine topics.[字符频率](https://en.wikipedia.org/wiki/Character_(符号))相对于所有字符的字母““一个”计数字母频率代表语音中的音素原创 2021-07-13 20:13:08 · 555 阅读 · 0 评论 -
深度学习和语音系列教程 3-100:提取音频特征
文章目录音频功能librosa featurespyaudioanalysis featuresSoX featuresAudioset features音频功能音频特征是语音特征,它不包含来自转录本的特征,也不包含从语音到文本模型输出的文本字符串。Audio FeatureDescriptionUse caseMel spectrogram frequency coefficients (mfcc)在人声范围内变窄的频带(通常是13种类型,但可以更多)Classifyin原创 2021-07-13 19:14:58 · 1157 阅读 · 0 评论 -
深度学习和语音系列教程 2-100:语音录制6种模式和音频文件相关操作
文章目录录制模式Active Asynchronous modeActive Asynchronous modePassive-synchronous (PS) modePassive-asynchronous (PA) modeActive-passive synchronous (APS) modeActive-passive-asynchronous (APA) mode清理音频文件Removing noise改变音量微调音频组合音频文件转码更改采样率更改频道数消除沉默说话人日记化存储语音文件conv原创 2021-07-10 12:53:20 · 272 阅读 · 0 评论 -
深度学习和语音系列教程 1-100:语音计算相关术语和操作
文章目录语音计算定义如何读写音频文件处理音频文件播放音频文件同步播放异步播放录制流媒体音频检查麦克风/设置默认麦克风同步录音异步记录转换音频格式转录音频文字转语音系统语音计算定义语音计算旨在开发硬件或软件来处理语音输入。 以下是在语音中会遇到的一些常见术语:TermDefinitionvoice computer任何可以处理语音输入的计算机化系统(组装的硬件和软件).voice computing software可以读/写、记录、清理、加密/解密、回放、转码、转录、压缩原创 2021-07-10 12:41:59 · 244 阅读 · 0 评论