基于达摩院视频切割技术的视频转换为短音频的vits数据集生成工具

最新推荐文章于 2025-09-10 21:10:02 发布

原创

最新推荐文章于 2025-09-10 21:10:02 发布 · 946 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#音视频 #python #人工智能 #语音识别 #pytorch

本文介绍了一种基于阿里达摩院FunASR-APP的ClipVideo工具的修改，用于快速生成适合VITS训练的1-10秒音频片段，尤其适用于个人爱好者，减轻了数据集准备的繁琐工作。

Dataset_Denerator_For_VITS

在现在的vits语音模型训练的步骤中，标注、清洗和训练框架都有不少很棒的项目可供学习和使用，但是在数据集的准备这一项好像还没有多少人去探究。对于动辄几百上千条短音频的数据集，对于一些只想听听自己喜欢的主播、恋人等声音的vits普通爱好者来说是基本不现实的。此前(2023.10)唯一开源且能用的音视频切片机还是VITS-fast-fine-tuning快速微调中内嵌的一套基于whisper的切片机，因为耦合度较大，导致也只能在快速微调自己的项目中使用，而无法适配其他如bert-vits2等项目。

综上所诉，我尝试着基于阿里达摩院FunASR-APP的ClipVideo作简单修改，制作了这个小工具，希望能补上国内vits训练圈子的一块拼图，您只需要一个人物或者角色的音频与视频，不管多长无论多大，有一点背景音乐也无妨，就算音视频混在一起放入指定目录都没问题，然后点击运行，就可以获得一系列1～10秒的短音频，这些音频完全可以直接送入其他用于标注的项目进行下一步准备。

下图是效果展示，使用GPU加速的情况下2两分钟生成600句短音频.
快进后的效果

项目链接

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。