[開發紀錄]語音辨識注意事項

這兩天為了語音辨識的資料解析度作了一些討論,

1、目前使用32ms作為一個音框,每個音框有512筆資料,覆蓋率為50%,取樣率16000,取到的聲音(一個字)大約在20~30個音框,總覺得太短,

若更改使用16ms,可增加音框數,但每個音框變為256筆資料,降低了轉換後的頻譜解析度,仍不利於辨識,

2、嘗試更改取樣慮到32000,轉換的頻率資料雖然增加,但人聲的頻率範圍再高頻處成分不多,原範圍區塊頻率解析度仍差,


影響辨識率的重要項目:

1、錄音品質不夠好,有電源雜訊導致過零率無法判讀,  

=> 追加硬體線路減少雜訊干擾後,程式加入過零率判定。 (已完成硬體)

2、目前辨識的訓練仍未建立完全,使用的中心值可能不夠準確,  

=> 先將訓練程式補完,目前使用一點中心值(程式已完成),比較資料至少到10筆(尚未測試),

=> 後續更改程式使用三點中心值,再次進行測試。

3、程式部分增加辨識度,音框大小以及取樣頻率作用不大,嘗試調整覆蓋率再進行測試,

另外,三角濾波器的數量嘗試由20更改為28,應該也可增加辨識度。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值