音频相关业务学习笔记

原创已于 2025-06-28 17:11:52 修改 · 776 阅读

·

8

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2025-06-28 16:15:05 首次发布

概要：

声音采集(录音)
音频转文字
音频特征提取
文字转语音

1、声音采集

通过麦克风或其它声音采集设备，把声音存为音频文件（wav、mp3等格式）

在windows平台，可通过调用 NAudio.Wave 、pyaudiowpatch 库实现

在linux 平台，NAudio、pyaudio库实现

2、音频转文字

把音频文件（wav、mp3等格式）转为文字

目前离线的方式，在windows系统，可以通过 System.Speech.Recognition 库

linux系统，可通过 Whisper 库(windows也可以用)，需要下载对应的模型库，官网很难打开，镜像如下：

whisper.cpp · 模型库

linux系统也可以通过 faster_whisper 实现，也需要对应的库，注意：faster_whisper的库是whisper转换过的，与whisper的不通用。镜像如下：

项目目录预览 - faster-whisper-large-v3:将Whisper large-v3模型转化为CTranslate2格式，实现高效的自动语音识别。支持快速部署于各类项目，轻松处理音频转文字任务，大幅提升工作效率。开源MIT协议，自由灵活，开发者可轻松接入。【此简介由AI生成】 - GitCodehttps://gitcode.com/mirrors/Systran/faster-whisper-large-v3/tree/main

modelee/faster-whisper-basehttps://gitee.com/modelee/faster-whisper-base

3、音频特征提取

主要应用场景是做声纹识别，对多个采集的声音识别为是否同一个人。前提是最好多次采集声音模型，提高识别率和识别准确性

相关核心技术：DCT(Discrete Cosine Transform )、MFCC

对声音文件提取频谱，转为图片特征，然后通过DCT傅里叶变换或其它算法，再结合MFCC提取特征值。

参考：

机器之声：揭秘声纹识别的奥秘https://cloud.baidu.com/article/3357222

如何实现两个声音相似度匹配算法 – PingCodehttps://docs.pingcode.com/ask/ask-ask/197075.html

声纹识别-网易伏羲https://fuxi.163.com/database/1502

4、文字转声音

这个通常用于提前转换，然后应用于对应场景，具有一定的延时性。

windows系统可以用自带的库

linux系统可以用edge_tts

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。