音频相关业务学习笔记

概要:

  1. 声音采集(录音)
  2. 音频转文字
  3. 音频特征提取
  4. 文字转语音

1、声音采集

        通过麦克风或其它声音采集设备,把声音存为音频文件(wav、mp3等格式)

在windows平台,可通过调用 NAudio.Wave 、pyaudiowpatch 库实现

在linux 平台,NAudio、pyaudio库实现

2、音频转文字

        把音频文件(wav、mp3等格式)转为文字

        目前离线的方式,在windows系统,可以通过 System.Speech.Recognition 库

        linux系统,可通过 Whisper 库(windows也可以用),需要下载对应的模型库,官网很难打开,镜像如下:        

whisper.cpp · 模型库

        linux系统也可以通过 faster_whisper 实现,也需要对应的库,注意:faster_whisper的库是whisper转换过的,与whisper的不通用。镜像如下:

项目目录预览 - faster-whisper-large-v3:将Whisper large-v3模型转化为CTranslate2格式,实现高效的自动语音识别。支持快速部署于各类项目,轻松处理音频转文字任务,大幅提升工作效率。开源MIT协议,自由灵活,开发者可轻松接入。【此简介由AI生成】 - GitCodehttps://gitcode.com/mirrors/Systran/faster-whisper-large-v3/tree/main

modelee/faster-whisper-basehttps://gitee.com/modelee/faster-whisper-base

3、音频特征提取

        主要应用场景是做声纹识别,对多个采集的声音识别为是否同一个人。前提是最好多次采集声音模型,提高识别率和识别准确性

        相关核心技术:DCT(Discrete Cosine Transform )、MFCC

        对声音文件提取频谱,转为图片特征,然后通过DCT傅里叶变换或其它算法,再结合MFCC提取特征值。

        参考:

机器之声:揭秘声纹识别的奥秘https://cloud.baidu.com/article/3357222

如何实现两个声音相似度匹配算法 – PingCodehttps://docs.pingcode.com/ask/ask-ask/197075.html

声纹识别-网易伏羲https://fuxi.163.com/database/1502

4、文字转声音

        这个通常用于提前转换,然后应用于对应场景,具有一定的延时性。

        windows系统可以用自带的库

        linux系统可以用edge_tts

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值