這兩天為了語音辨識的資料解析度作了一些討論,
1、目前使用32ms作為一個音框,每個音框有512筆資料,覆蓋率為50%,取樣率16000,取到的聲音(一個字)大約在20~30個音框,總覺得太短,
若更改使用16ms,可增加音框數,但每個音框變為256筆資料,降低了轉換後的頻譜解析度,仍不利於辨識,
2、嘗試更改取樣慮到32000,轉換的頻率資料雖然增加,但人聲的頻率範圍再高頻處成分不多,原範圍區塊頻率解析度仍差,
影響辨識率的重要項目:
1、錄音品質不夠好,有電源雜訊導致過零率無法判讀,
=> 追加硬體線路減少雜訊干擾後,程式加入過零率判定。 (已完成硬體)
2、目前辨識的訓練仍未建立完全,使用的中心值可能不夠準確,
=> 先將訓練程式補完,目前使用一點中心值(程式已完成),比較資料至少到10筆(尚未測試),
=> 後續更改程式使用三點中心值,再次進行測試。
3、程式部分增加辨識度,音框大小以及取樣頻率作用不大,嘗試調整覆蓋率再進行測試,
另外,三角濾波器的數量嘗試由20更改為28,應該也可增加辨識度。