记录一下自己用VITS推理后保存WAV音频文件遇到的一点坑

原创

已于 2023-06-16 08:40:52 修改 · 856 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

于 2023-03-17 11:25:58 首次发布

文章讲述了在使用VITS模型进行音频处理后，通过wave库保存音频出现噪声问题，而使用scipy.io.wavfile库则没有问题。问题的关键在于wave库需要整数格式的数据，而原始数据是以浮点数在-1到1之间的形式。通过将音频数据乘以32767并转换为int16类型，解决了wave库保存时的格式不匹配问题。

 audio = net_g.infer(x_tst, x_tst_lengths, noise_scale=.667, noise_scale_w=0.6, length_scale=1.2)[0][0,0].

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

YulKe

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

基于So-VITS-SVC语音合成几种不同的推理方法

Mr数据杨

04-05

1664

通过本文的介绍，开发者应已掌握了在非WebUI环境中启动语音克隆模型的不同方法。命令行方式提供了直接的模型推理途径，适合快速测试和在无界面需求的场景下使用。API调用方式则通过Flask服务器提供更灵活的接口服务，使用户能够利用HTTP请求轻松实现音频转换功能。文章详细说明了不同参数的作用和配置方法，涵盖了模型推理、音频增强、设备控制等多个方面，为开发者在各类音频项目中的实际应用奠定了扎实的基础。这种集成性的指导不仅提升了语音克隆的易用性，还使模型在不同使用场景下具备了更高的扩展性和可操作性。

基于So-VITS-SVC音频合成异常的解决办法

Mr数据杨

06-27

4246

本文探讨了提升语音合成（TTS）质量的关键方法。首先通过优化模型参数（如预测F0和调整语调）解决声音沙哑问题。随后重点介绍了微软TTS服务的实现流程：获取API访问令牌、文本分段处理（需控制单段长度）、逐段生成音频并合并。代码示例涵盖了从配置参数、HTTP请求到音频合成的完整链路，有效解决了长音频生成中的失真问题。该方法通过合理的参数配置和分段处理策略，显著提升了合成语音的自然度和流畅性。

1 条评论您还未登录，请先登录后发表或查看评论

1 条评论

qq_28302199 2023.04.19
完整代码怎么写？

VITS源码解读6-训练&推理

disanda的专栏

09-28

820

VITS到这里就告于段落了，后面的VITS2改进了VITS的dp模型（flow变gan），在cosvoice等模型里面也能见到VITS的主干网络。因此， VITS是音频tts和vc、sc的核心技术。

TTS | 轻量级语音合成论文详解及项目实现

weixin_44649780的博客

09-18

3230

介绍了之前的俩阶段语音合成（声学模型和Vocoders）,因为VITS是高质量端到端的模型，所以论文提出的模型是基于VITS轻量级的端到端模型，论文主要几种在模型的解码部分，也就是转换潜在的声学特征到wavaform,用简单的反向短时傅立叶变换 (iSTFT)代替一部分解码器,以高效地完成频域到时域的转换.在推理提升速度时，使用多段处理。在提出的方法时，每一个iSTFTNet,子段信号。推理时，比原本的VITS快了4.1倍，

VITS 模型详解与公式推导：基于条件变分自编码器和对抗学习的端到端语音合成模型

m0_56942491的博客

03-07

8859

既然是从低维重构原始图像不太行，那如果将隐变量维度取输入维度一样大小呢？似乎还不够，因为标准的 VAE 将后验分布也假设为高斯分布，这限制了模型的表达能力。事实上，人们猜测，由于高斯分布簇只是众多可能的后验分布中极小的一部分，如果后验分布的性质与高斯分布差很远，那么拟合效果就会很糟糕。因此，人们想到了另一个模型：Flow。流模型通过一系列耦合层，可以将复杂的输入分布转化为高斯分布，这样的过程可逆，雅可比矩阵行列式也容易计算，那么我们就可以使用流模型，将原本过于简单的高斯分布变为更加复杂的分布，从而提高其表达

VITS声学模型的云端训练和本地推理

m0_64664995的博客

06-29

2805

云端训练白嫖谷歌的显卡，本地推理需要有一张3GB显存及以上的N卡。

Vits2.3-Extra-v2:中文特化，如何训练及推理（新手教程）

本博客，博文仅代表个人操作经验，不能完全解决你的问题，仅供参考，佛系回复。

02-11

1264

Vits2.3-Extra-v2:中文特化修复版干声10分钟左右.wav。

基于So-VITS-SVC的API实现批量语音合成

Mr数据杨

04-07

760

完整的代码如下，这里对应的路径修改成自己的就行。导入必要的模块用于文件路径操作、发送HTTP请求、文件操作以及音频处理。定义了API的URL和表单数据，这些数据将用于处理音频文件，例如音频变调、采样率调整和指定说话人ID等。先看一下批量执行的结果，我这里是处理《红楼梦》文件夹下全部的内容，处理每个片段然后用。文件按文件名中的数字顺序合并为一个单独的文件，并将这个合并后的文件保存到指定路径。遍历《红楼梦》章节音频文件所在的目录，对每个子目录中符合特定条件的。，该函数负责将一个目录下所有的。

基于VITS 快速微调的本地环境配置、本地训练以及本地推理的教程

cf2xh123的博客

03-08

6093

该教程能教会读者如何使用本地服务器使用VITS微调训练自己的想要的角色的声音并且本地推理，注意只能使用linux版本进行训练，但是推理可以在windows上完成。

Python - Bert-VITS2 语音推理服务部署

BITDDD小栈

01-11

4806

Bert-VITS2 自定义语音推理服务部署。

Python - Bert-VITS2 自定义训练语音

BITDDD小栈

01-09

4456

使用 Bert-VITS2 训练自己的语音模型。

Python之音频信号处理（一）音频基础知识

weixin_43899333的博客

02-27

9962

一、音频基础知识 1、声音的三要素（1）音调人耳对声音高低的感觉称为音调(也叫音频)。音调主要与声波的频率有关。声波的频率高，则音调也高。一般音频儿童>女生>男生。人耳听觉音频范围是20Hz-20000Hz(做音频压缩时不在这个范围内的数据就可以砍掉)。（2）音量也就是响度。人耳对声音强弱的主观感觉称为响度。响度和声波振动的幅度有关。一般说来，声波振动幅度越大则响度也越大...

python音频处理

wangqianqianya的博客

04-27

2935

音频处理好用的库 https://www.cnblogs.com/lyrichu/p/6848732.html AudioSegment库的使用https://github.com/jiaaro/pydub/blob/master/API.markdown#api-documentation from pydub import AudioSegment sound1 = AudioSegme...

RealPython 中文系列教程（一百零一）

龙哥盟

11-11

1528

的原因。如果您正在 Python 交互式会话中工作，那么您会注意到。

Vits——语音模型Vits部署

Irving.Gao的博客

01-12

7549

【代码】Vits——语音模型Vits部署。

AI数字人：基于VITS模型的中文语音生成训练

十年以上架构设计经验，专注于软件架构和人工智能领域，对机器视觉、NLP、音视频等领域都有涉猎

05-27

1万+

VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）是一种结合变分推理（variational inference）、标准化流（normalizing flows）和对抗训练的高表现力语音合成模型。

VITS 语音合成完全端到端TTS的里程碑

最新发布

02-10

### 使用so-vits-svc在Ubuntu上进行推理 #### 安装依赖库为了能够在Ubuntu上运行so-vits-svc模型，安装必要的Python包和其他依赖项是必需的操作。这通常涉及使用`pip`来安装特定版本的PyTorch以及其他辅助工具，如numpy, scipy等。 ```bash sudo apt-get update && sudo apt-get install -y portaudio19-dev pip install torch==1.7.0+cu101 torchaudio===0.7.0 -f https://download.pytorch.org/whl/torch_stable.html pip install numpy scipy soundfile webrtcvad pyworld pypinyin unidecode g2p_en onnxruntime ``` #### 下载并配置环境获取so-vits-svc项目的源码可以通过克隆GitHub仓库完成。之后进入项目目录设置环境变量以及下载预训练模型文件以便后续调用[^1]。 ```bash git clone https://github.com/your-repo/so-vits-svc.git cd so-vits-svc wget http://path.to/pretrained_model.pth export PYTHONPATH=$PYTHONPATH:$(pwd) ``` #### 准备音频数据对于输入的声音片段，确保其格式符合要求（通常是WAV），并且采样率匹配预期设定。如果有必要的话，可以利用脚本批量转换待处理的语音样本至适当规格[^2]。 ```python import librosa from scipy.io.wavfile import write as wavwrite def preprocess_audio(input_path, output_path): y, sr = librosa.load(input_path, sr=22050) # 调整为所需的采样频率 wavwrite(output_path, sr, y.astype('float32')) ``` #### 执行推理过程最后一步就是编写简单的测试程序加载之前准备好的模型权重，并传入经过前处理后的音频作为输入执行预测操作。这里给出一个简化版的例子展示基本流程[^3]。 ```python import torch from model import SoVITS_SVC_Model # 假设这是定义了网络结构的一个模块 device = 'cuda' if torch.cuda.is_available() else 'cpu' model = SoVITS_SVC_Model().to(device) checkpoint = torch.load('./pretrained_model.pth', map_location=device) model.load_state_dict(checkpoint['state_dict']) model.eval() with torch.no_grad(): audio_tensor = ... # 加载和预处理过的音频张量 result = model(audio_tensor.unsqueeze(0).to(device)) print("Inference completed.") ```