
声音处理(audio processing)
文章平均质量分 57
跬步达千里
深度学习 图像处理 tensorflow caffe python C++
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
语音模型
1 语音生成系统 发声器官:声带,声道 声带:声音的激励,开启闭合一次形成浊音的激励脉冲,其频率为60-450hz,也称为基音频率 声道:从声带到嘴唇的呼吸通道,声音的信道,决定一个人的声纹 人声按照声带振动与否,分为浊音与清音人声发音原理:a 声带开启与闭合,产生一定频率的激励信号,通过声道,产生浊音b 声带不振动,由声道(包括口原创 2016-05-26 10:43:35 · 3626 阅读 · 0 评论 -
倒谱分析与倒谱求法
倒谱分析可检测频谱中的重复模式,使其对区分多个故障非常有用,该故障在不同的主要频谱(即FFT、阶次、包络和增强频谱)中很难看到。 最重要的行业应用与机械诊断相关,如齿轮箱分析,以及其他应用,如:1 回声检测和去除2 以及语音分析 在以下网站中:http://www.bksv.cn/Products/analysis-software/signal-a原创 2016-05-26 10:48:20 · 23603 阅读 · 7 评论 -
用于求两个向量之间的距离
http://blog.youkuaiyun.com/shiwei408/article/details/7602324转载 2016-05-21 11:31:48 · 4385 阅读 · 0 评论 -
语音及音频相关
语音共振峰详解http://www.sfu.ca/sonic-studio/handbook/Formant.htmlhttp://person2.sol.lu.se/SidneyWood/praate/whatform.htmlhttp://www.fon.hum.uva.nl/praat/manual/Formant.html语音信号的形成机制http://hype转载 2016-05-19 17:18:16 · 1058 阅读 · 0 评论 -
关于音频降噪
常见的音频降噪算法,对于加性平稳随机噪声,效果还是很不错的,加性平稳随机噪声的假设是很多语音增强的假设前提。关于非平稳噪声,比如,发动机的轰鸣声、风声、街道上别人的声音,就需要根据场景来处理,要单独处理。原创 2016-05-31 11:31:03 · 4299 阅读 · 0 评论 -
部分音频特征
在本文件夹的 low-level features and timbre文本有有对相应的特征参数代表的物理意义的解释来自文献 全自动中文新闻字幕生成系统的设计与实现频谱质心(spectral centroid,SC)频谱能量的集中点,一般来说,此值越小,说明越多的能量集中在低频范围内。频谱差分幅度(spectral flux,SF)一个音频段中的相邻两帧之间谱的平均变化量频原创 2016-05-26 10:51:20 · 4796 阅读 · 0 评论 -
HTK
基于HTK语音工具包 的学习(中文):http://blog.sina.com.cn/s/blog_436992740102uwub.htmlHTK入门讲解:http://blog.youkuaiyun.com/neustar1/article/details/19283017(HTK连续语音识别)http://m.blog.youkuaiyun.com/blog/u010384318/176原创 2016-05-26 10:58:24 · 704 阅读 · 0 评论 -
GMM-HMM语音识别
现在假设知道了HMM模型中的一个状态(比如,孤立此识别中,这里一个状态代表一个词)对应的K个多维高斯的所有参数,则该GMM生成该状态(该词)上某一个观察向量()的概率就出来了,即,知道了某个孤立词对应的K个高斯模型的所有参数,那么,就可以计算一帧观测值对于该词的概率。以下是文献中提到的 机器学习&数据挖掘笔记_14(GMM-HMM语音识别简单理解)为了对GMM-H原创 2016-05-26 10:57:54 · 3363 阅读 · 0 评论 -
speex
Speex是基于CELP并且专门为码率在2-44kbps的语音压缩而设计的。它的特点有:■窄带(8kHz),宽带(16kHz)和超宽带(32kHz)压缩于同一位流。■强化立体编码■数据包丢失隐蔽■可变比特率(VBR)■语音捕捉(VAD)■非连续传输(DTX)■定点运算■感官回声消除(AEC):http://www.cnblogs.com/kinyer/p/3原创 2016-05-26 10:57:04 · 929 阅读 · 0 评论 -
webrtc杂项
http://blog.youkuaiyun.com/ruichen198706/article/details/8287240:使用该AEC算法要注意两点:1)延时要小,因为算法默认滤波器长度是分为12块,每块64点,按照8000采样率,也就是12*8ms=96ms的数据,而且超过这个长度是处理不了的。2)延时抖动要小,因为算法是默认10块也计算一次参考数据的位置(即滤波器能量最大的那一原创 2016-05-26 10:55:32 · 465 阅读 · 0 评论 -
倒谱与梅尔倒谱的区别
梅尔频率倒谱是倒谱的一种应用,梅尔倒谱常应用在声音信号处理,对于声音信号处理比倒谱更接近人耳对声音的分析特性,而梅尔频率倒谱与倒谱的差别在于:1 梅尔频率倒谱的频带分析是根据人耳听觉特性所设计,人耳对于频率的分辨能力,是由频率的比值决定,也就是说,人耳对200Hz和300Hz之间的差别与2000Hz与3000Hz之间的差别是相同的。2 梅尔频率倒谱是针对信号的能量取对数,而原创 2016-05-26 10:49:06 · 3766 阅读 · 0 评论 -
信号分帧的条件
一帧信号至少必须包含2个基本周期以上,才能够显示语音的特性。比如,对于已知人声的音高范围大约在50Hz和1000Hz之间,因此对于一个采样频率,如取采样频率为8000Hz,那么当音高f=50Hz(例如男低音的歌声)时,每个基本周期的点数是fs/f=8000/50=160,因此,每一帧必须至少是320点,若音高是1000Hz(如女高音的歌声)时,每个基本周期的点数是8000原创 2016-05-26 10:46:41 · 2095 阅读 · 0 评论 -
谱估计
谱估计,是对随机信号序列进行功率谱密度估计算法的总称,属于频域中描述随机信号特性的分析方法之一,随机信号是不确定的,不能够用清晰的数学式表达,只能根据随机过程理论,利用统计方法来进行分析。经常利用均值、均方值,相关函数和功率谱密度函数等统计量来藐视随机过程的特征或随机信号的特性。实际上,经常遇到的随机过程多是平稳随机过程而且是各态历经的,因而它的样本函数集的平均可以根据某一个函数的时间平均原创 2016-05-26 10:44:34 · 2804 阅读 · 0 评论 -
音调
声音频率的高低叫音调,英文pitch,是声音的三个主要的主观属性,即音量(响度),音调,音色(音品)之一。 对于一定强度的纯音,音调随着频率的升降而升降 对于一定频率的纯音、低频纯音的音调随声强增加而下降,高频纯音的音调却随强度增加而上升。大体上,2000赫兹以下的低频纯音的音调随响度的增加而下降,3000赫兹以上高频纯音的音调随响度的增加而上升。 声原创 2016-05-26 10:44:05 · 2065 阅读 · 0 评论