ComfyUI中运行Stable Audio Open,实现背景音乐、音效自由

🧨背景

stability在一个月之前默默的发布了Stable Audio Open 1.0的音频音效生成模型,不过好像影响力一般,也没有太多文章分享测试,而今天看comfyui作者的一篇介绍文档,他已经让comfyui默认支持了这个模型。

原开源地址:https://huggingface.co/stabilityai/stable-audio-open-1.0

Stable Audio Open 1.0根据文本提示生成 44.1kHz 的可变长度(最长 47 秒)立体声音频。它由三个组件组成:将波形压缩为可管理序列长度的自动编码器、用于文本调节的基于 T5 的文本嵌入,以及在自动编码器的潜在空间中运行的基于变换器的扩散 (DiT) 模型。

实际测试下来,在音效生成方面,其实还可以,结合sd3或许可以生成不错的解压视频,所以这里介绍给大家。


✨训练集与应用限制

训练素材

数据集包含 486492 条录音,其中 472618 条来自 Freesound,13874 条来自免费音乐档案馆 (FMA)。所有音频文件均根据 CC0、CC BY 或 CC Sampling+ 获得许可。这

人工智能游戏怎么做?我想做一款结合了古诗词学习和跑酷玩法的教育类游戏。玩家在游戏中需要控制角色在跑道上奔跑,同时躲避障碍物、收集道具,并在特定位置回答古诗词相关问题。游戏通过寓教于乐的方式,让玩家在享受游戏乐趣的同时,学习并巩固古诗词知识。 在本研究中,将探索如何引导教育工作者有效利用AIGC多模态技术快速、便捷地开发和优化教育游戏,从而提高教育游戏的质量,降低开发成本和技术门槛。具体从以下几个方面展开研究: (1)文本与图像的结合 根据古诗词的具体内容和意境,利用 AIGC 技术生成更加精准、生动的图像和动画。例如,当玩家遇到“日照香炉生紫烟”这句诗时,游戏可以生成一幅香炉峰在阳光照射下升起紫色烟霞的图像或动画,帮助玩家更直观地理解诗意。 (2)音频与文本的结合 利用AIGC技术根据古诗词生成相关音频,提供语音播报功能,设计多样化音效。如将古诗词问题以语音播报的方式呈现给玩家,增加游戏的互动性和趣味性,提高玩家对问题的理解度和注意力。并根据诗词意境播放相关的音效,如流水声、蛙鸣、乌啼等,营造出更加沉浸式的游戏氛围。同时,当玩家回答正确时,游戏可以播放一段鼓励性的语音,增强玩家的成就感和满足感。 (3)个性化内容生成 利用AIGC技术分析玩家的学习进度和能力水平,生成个性化的游戏内容和难度。例如,对于初学者,生成相对简单、趣味性强的古诗词问题和图像;而对于高级玩家,则提供更具挑战性的问题和更复杂的图像,以满足他们的深度学习需求。 (4)实时性能监测与优化 通过AIGC技术,实时监测玩家的游戏行为和表现,并根据反馈结果对游戏性能进行优化。例如,当发现玩家在某个古诗词问题上频繁出错时,游戏可以调整相关问题的出现频率和难度,以更好地适应玩家的学习需求。
04-03
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

聚梦小课堂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值