AI唱歌( ) 之 UVR5使用教程


# 第①部分:(红色)

Select Input:导入要处理的音频,可以选择多个音频

Select Output:选择输出音频的目录

# 第②部分:(黄色)

**选择输出音频的格式:**

wav:无损音频,没有被压缩,体积大

flac:无损音频,无损压缩,体积适中

mp3:有损音频,有损压缩,体积小

# 第③部分:(绿色)

## **CHOOSE PROCESS METHOD:选择处理音频的算法**

VR Architecture:使用幅度频谱图进行音源分离。

MDX-Net:采用混合频谱网络进行音源分离。

Demucs:利用混合频谱网络进行音源分离。

Ensemble Mode:将多个模型和网络的结果组合以获得最佳结果。

Audio Tools:提供额外的实用工具,以增加便利性。

**GPU Conversion:使用显卡加速处理(强烈建议勾选,CPU计算的速度非常慢)**

**Sample Mode (??s) :只处理??秒的音频,可以预览结果**

### **如果处理算法选择****VR Architecture**

WINDOW SIZE:选择窗口大小以平衡质量和速度

1024 - 快速但质量较低。

512 - 中等速度和质量。

==320 - 需要更长时间,但可能提供更好的质量。(推荐,实际上慢不了多少)==

AGGRESSION SETTING:调整主音轨提取的强度

可调范围是[-100, 100],较大的值意味着更深的提取。

通常,对于人声和器乐,将其设置为5。

超过5的值可能会使非人声模型的声音变得混浊。

#### 下面的选项会随着不同的模型发生变化

Vocals Only:只提取人声

Instrumental Only:只提取伴奏

No Echo Only:只输出去掉混响的音频

Echo Only:只输出混响部分的音频

No Noise Only:只输出降噪后的音频

Noise Only:只输出噪声部分的音频

### **如果处理算法选择MDX-Net**

SEGMENT SIZE:调整切片大小

较小的大小消耗较少的资源。

较大的大小消耗更多资源,但可能提供更好的结果。

==(默认的256即可,长切片对效果的提升微乎其微)==

OVERLAP:控制预测窗口之间的重叠量

较高的值可能会提供更好的结果,但会导致更长的处理时间。

==(默认即可,实测没啥提升)==

下面的选项会随着不同的模型发生变化

Vocals Only:只提取人声

Instrumental Only:只提取伴奏

No Reverb Only:只输出去掉混响的音频

Reverb Only:只输出混响部分的音频

### **如果处理算法选择Demucs**

CHOOSE STEM(s):选择音轨

Vocals:人声,Bass:贝斯,Drums:鼓,Other:其他乐器

Guitar:吉他,Piano,钢琴(这两项是v4 | htdemucs_6s模型独占)

SEGMENT:调整切片大小

较小的大小消耗较少的资源。

较大的大小消耗更多资源,但可能提供更好的结果。

(默认即可,长切片对效果的提升微乎其微)

### **如果处理算法选择Ensemble Mode**

MAIN STEM PAIR:选择合奏的音轨类型

Vocals/Instrumental:主要音轨:人声,次要音轨:伴奏

Bass/No Bass:主要音轨:贝斯,次要音轨:没有贝斯

Drums/No Drums:主要音轨:鼓,次要音轨:没有鼓

Other/No Other:主要音轨:其他,次要音轨:没有其他

4 Stem Ensemble:汇集所有4音轨Demucs模型并合并所有输出。

Multi-stem Ensemble:"丛林合奏"汇集所有模型并合并相关的输出。(不是很懂QAQ)

ENSEMBLE ALGORITHM:选择用于生成最终输出的合奏算法

例如:Max Spec/Min Spec,斜杠前面的对主要音轨(Primary stem)生效,斜杠后面的对次要音轨(Secondary stem)生效,对于“4音轨合奏(4 Stem Ensemble)”选项,只会显示一个算法。

详细解释:

⚪Max Spec:

产生可能的最高输出。

适用于人声音轨,以获得更丰满的声音,但可能会引入不希望的伪影。

适用于器乐音轨,但请避免在合奏中使用VR Arch模型。

⚪Min Spec:

产生可能的最低输出。

适用于器乐音轨,以获得更清晰的结果。可能会导致“浑浊”的声音。

⚪Average:

将所有结果取平均以生成最终输出。


# 第④部分:(蓝色)

小扳手🔧:打开设置

Start Processing:开始处理

小方块■:停止处理

---
# 使用
下载完模型后开始处理音频,select input选择输入文件,select output选择输出文件夹,输出格式选WAV,记得点上**GPU Conversion**(使用GPU),首先选择**MDX-Net**类型使用**Bs-Roformer**-Viperx-1297(目前最好的提取人声的模型,又快又好)提取人声。处理完的音频(vocals)的是人声。然后把人声再输入去混响(下面三选一):**VR Architecture**:UVR-De-Echo-**Normal**(轻度混响)、UVR-De-Echo-**Aggressive**(重度混响)、UVR-De-Echo-**Dereverb**(变态混响),最后用UVR-**DeNoise**降噪一下。这套流程弄完会比自带的UVR5在人声提取方面好一点。

### 使用 UVR5 模型进行音频分离或人声移除指南 #### 准备工作 为了成功使用 UVR5 进行人声分离或其他类型的音频处理,需先完成必要的准备工作。这包括获取应用程序本身以及配置运行环境。 对于不同操作系统的用户来说,可以从官方GitHub页面下载对应版本的应用程序安装包[^2]。Windows 用户应选择 `.exe` 文件;而 MacOS 用户则依据自己设备的处理器架构(M1/M2 或 Intel),分别挑选相应的 `.dmg` 安装镜像来部署此工具。 此外,在某些情况下可能还需要额外安装 FFmpeg 工具以便更好地处理各种格式的音频文件,并考虑是否要利用 Nvidia 显卡通过 CUDA 来提升计算效率。如果决定采用 GPU 加速,则按照指引设置好相关驱动和支持库即可。 #### 获取预训练模型 启动 Ultimate Vocal Remover 后,界面底部会有一个形似扳手的小图标按钮,点击它可以打开 “Download Center”,在这里能够选取并加载多种专为人声与乐器分隔设计好的深度学习模型。例如: - **MDX-Net**:特别推荐给追求高精度分离效果的朋友; - **VR Architecture**:当面对含有复杂背景噪音或者回声干扰的情况时表现出色。 值得注意的是,默认提供的选项里并不包含所有可用资源——部分高级特性或许需要单独申请访问权限或是购买授权才能解锁更多可能性。 #### 开始处理音频数据 一旦上述前提条件都已满足,就可以着手准备待处理的目标音频素材了。将这些文件导入至软件内部之后,根据个人偏好调整参数设定(比如输出质量等级、保存位置等),最后按下执行键等待片刻就能得到经过优化后的纯净版伴奏轨或者是清晰度极高的独唱声道输出结果[^3]。 ```bash # 命令行方式调用UVR5脚本示例(假设已在命令环境中设置了正确的路径) python ultimate_vocal_remover.py --input_path="your_audio_file.wav" \ --model_name="6_HP-UVR.pth" ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

宸静

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值