基于Bark-with-Voice-Clone项目的语音克隆技术详解-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00641/article/details/148578775

基于Bark-with-Voice-Clone项目的语音克隆技术详解

bark-with-voice-clone 🔊 Text-prompted Generative Audio Model - With the ability to clone voices 项目地址: https://gitcode.com/gh_mirrors/ba/bark-with-voice-clone

项目概述

Bark-with-Voice-Clone是一个基于深度学习的语音克隆系统，它能够通过分析短音频样本(13秒以内)来捕捉说话者的声音特征，然后使用这些特征生成新的语音内容。该系统结合了多种先进的语音处理技术，包括HuBERT语义编码、EnCodec音频编码以及Bark文本到语音合成框架。

核心技术组件

1. 音频处理基础架构

系统首先需要加载EnCodec编解码器模型，这是处理音频的基础：

from bark.generation import load_codec_model
import torchaudio
import torch

device = 'cuda' # or 'cpu'
model = load_codec_model(use_gpu=True if device == 'cuda' else False)

这段代码初始化了音频处理环境，选择使用GPU或CPU进行计算，并加载了EnCodec模型。EnCodec负责将原始音频波形转换为压缩表示形式，这对于后续的语音特征提取至关重要。

2. HuBERT语音特征提取

系统使用HuBERT(Hidden-unit BERT)模型来提取语音的语义特征：

from hubert.hubert_manager import HuBERTManager
hubert_manager = HuBERTManager()
hubert_manager.make_sure_hubert_installed()
hubert_manager.make_sure_tokenizer_installed()

from hubert.pre_kmeans_hubert import CustomHubert
from hubert.customtokenizer import CustomTokenizer

hubert_model = CustomHubert(checkpoint_path='data/models/hubert/hubert.pt').to(device)
tokenizer = CustomTokenizer.load_from_checkpoint('data/models/hubert/tokenizer.pth').to(device)

HuBERT是一种自监督学习的语音表示模型，能够捕捉语音中的高级语义信息。CustomTokenizer则将这些语义信息量化为离散的token，便于后续处理。

语音克隆实现步骤

1. 音频预处理

audio_filepath = 'audio.wav'
wav, sr = torchaudio.load(audio_filepath)
wav = convert_audio(wav, sr, model.sample_rate, model.channels)
wav = wav.to(device)

这一步骤确保输入音频具有正确的采样率和通道数，并将其转移到指定的计算设备(GPU/CPU)上。

2. 语义特征提取

semantic_vectors = hubert_model.forward(wav, input_sample_hz=model.sample_rate)
semantic_tokens = tokenizer.get_token(semantic_vectors)

通过HuBERT模型提取语音的语义向量，然后使用tokenizer将其转换为语义token。这些token代表了语音的高级语义特征。

3. 音频编码

with torch.no_grad():
    encoded_frames = model.encode(wav.unsqueeze(0))
codes = torch.cat([encoded[0] for encoded in encoded_frames], dim=-1).squeeze()

使用EnCodec模型对音频进行编码，得到离散的音频编码表示。这些编码捕捉了语音的声学特征。

4. 语音特征保存

import numpy as np
voice_name = 'output'
output_path = 'bark/assets/prompts/' + voice_name + '.npz'
np.savez(output_path, fine_prompt=codes, coarse_prompt=codes[:2, :], semantic_prompt=semantic_tokens)

将提取的语音特征保存为.npz文件，包含精细编码、粗略编码和语义token三部分。这个文件就是克隆出的"声音"，可以在后续的语音合成中使用。

语音合成应用

克隆出声音后，可以使用Bark框架进行文本到语音合成：

from bark.api import generate_audio
from bark.generation import SAMPLE_RATE, preload_models

text_prompt = "Hello, my name is Serpy. And, uh — and I like pizza. [laughs]"
voice_name = "output" # 使用克隆的声音名称

preload_models(
    text_use_gpu=True,
    coarse_use_gpu=True,
    fine_use_gpu=True,
    codec_use_gpu=True
)

# 简单生成方式
audio_array = generate_audio(text_prompt, history_prompt=voice_name)

或者使用更精细的控制方式：

# 分步生成方式
x_semantic = generate_text_semantic(text_prompt, history_prompt=voice_name)
x_coarse_gen = generate_coarse(x_semantic, history_prompt=voice_name)
x_fine_gen = generate_fine(x_coarse_gen, history_prompt=voice_name)
audio_array = codec_decode(x_fine_gen)

音频输出处理

生成的音频可以播放或保存为文件：

from IPython.display import Audio
from scipy.io.wavfile import write as write_wav

# 播放音频
Audio(audio_array, rate=SAMPLE_RATE)

# 保存音频
write_wav("/output/audio.wav", SAMPLE_RATE, audio_array)