概要:
- 声音采集(录音)
- 音频转文字
- 音频特征提取
- 文字转语音
1、声音采集
通过麦克风或其它声音采集设备,把声音存为音频文件(wav、mp3等格式)
在windows平台,可通过调用 NAudio.Wave 、pyaudiowpatch 库实现
在linux 平台,NAudio、pyaudio库实现
2、音频转文字
把音频文件(wav、mp3等格式)转为文字
目前离线的方式,在windows系统,可以通过 System.Speech.Recognition 库
linux系统,可通过 Whisper 库(windows也可以用),需要下载对应的模型库,官网很难打开,镜像如下:
linux系统也可以通过 faster_whisper 实现,也需要对应的库,注意:faster_whisper的库是whisper转换过的,与whisper的不通用。镜像如下:
modelee/faster-whisper-basehttps://gitee.com/modelee/faster-whisper-base
3、音频特征提取
主要应用场景是做声纹识别,对多个采集的声音识别为是否同一个人。前提是最好多次采集声音模型,提高识别率和识别准确性
相关核心技术:DCT(Discrete Cosine Transform )、MFCC
对声音文件提取频谱,转为图片特征,然后通过DCT傅里叶变换或其它算法,再结合MFCC提取特征值。
参考:
机器之声:揭秘声纹识别的奥秘https://cloud.baidu.com/article/3357222
如何实现两个声音相似度匹配算法 – PingCodehttps://docs.pingcode.com/ask/ask-ask/197075.html
声纹识别-网易伏羲https://fuxi.163.com/database/1502
4、文字转声音
这个通常用于提前转换,然后应用于对应场景,具有一定的延时性。
windows系统可以用自带的库
linux系统可以用edge_tts