Dataset_Denerator_For_VITS
在现在的vits语音模型训练的步骤中,标注、清洗和训练框架都有不少很棒的项目可供学习和使用,但是在数据集的准备这一项好像还没有多少人去探究。对于动辄几百上千条短音频的数据集,对于一些只想听听自己喜欢的主播、恋人等声音的vits普通爱好者来说是基本不现实的。此前(2023.10)唯一开源且能用的音视频切片机还是VITS-fast-fine-tuning快速微调中内嵌的一套基于whisper的切片机,因为耦合度较大,导致也只能在快速微调自己的项目中使用,而无法适配其他如bert-vits2等项目。
综上所诉,我尝试着基于阿里达摩院FunASR-APP的ClipVideo作简单修改,制作了这个小工具,希望能补上国内vits训练圈子的一块拼图,您只需要一个人物或者角色的音频与视频,不管多长无论多大,有一点背景音乐也无妨,就算音视频混在一起放入指定目录都没问题,然后点击运行,就可以获得一系列1~10秒的短音频,这些音频完全可以直接送入其他用于标注的项目进行下一步准备。
下图是效果展示,使用GPU加速的情况下2两分钟生成600句短音频.

项目链接

本文介绍了一种基于阿里达摩院FunASR-APP的ClipVideo工具的修改,用于快速生成适合VITS训练的1-10秒音频片段,尤其适用于个人爱好者,减轻了数据集准备的繁琐工作。
最低0.47元/天 解锁文章
2936

被折叠的 条评论
为什么被折叠?



