Stable Audio Open模型部署教程：用AI打造独家节拍，让声音焕发新活力！

原创

于 2024-12-05 10:28:56 发布 · 1.8k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #文本生成音频 #大模型 #ComfyUl #AI音频 #AI声音 #微调

Stable Audio Open 是一个开源的文本到音频模型，允许用户从简单的文本提示中生成长达 47 秒的高质量音频数据。该模型非常适合创建鼓点、乐器即兴演奏、环境声音、拟音录音和其他用于音乐制作和声音设计的音频样本。用户还可以根据他们的自定义音频数据微调模型，使他们能够从自己的鼓录音中创建新的节拍。

官方地址：https://stable-audio-open.com/zh

容器构建说明

本文档针对 ComfyUI 进行部署使用，因此在正式部署之前需要部署 ComfyUI

1. 部署 ComfyUI流程

（1）使用命令克隆 ComfyUI

git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI

（2）安装 conda（如已安装则跳过）

下面需要使用 Anaconda 或 Mimiconda 创建虚拟环境，可以输入 conda --version 进行检查。下面是 Mimiconda 的安装过程：

下载 Miniconda 安装脚本

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

运行安装脚本

bash Miniconda3-latest-Linux-x86_64.sh

遵循安装提示并初始化

按 Enter 键查看许可证条款，阅读完毕后输入 yes 接受条款，安装完成后，脚本会询问是否初始化 conda 环境，输入

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

算家计算

关注关注

17
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

参与评论您还未登录，请先登录后发表或查看评论

博客

太空算力：数字时代的新基建，为何成为大国必争之地？

12-01

744

人工智能的算力竞赛，其舞台正从地面延伸至星辰大海。

博客

DeepSeek开源IMO金牌模型！跑出数学推理新高度，你的算力准备好了吗？

11-28

265

DeepSeek重磅归来！这次，新模型重新定义了数学推理的本质。

博客

AI学习范式变革：Ilya Sutskever最新访谈揭示后规模时代的AI发展路径—从算力竞争到研究竞争的转向

11-27

385

AI“规模时代”正式终结？Ilya Sutskever最新访谈揭示了AI未来的方向。

博客

芯片战打响！谷歌TPU挑战英伟达：AI算力战争背后的行业变局

11-26

513

近日，谷歌凭借在TPU以及Gemini 3模型方面的突破，正直接挑战英伟达的主导地位。英伟达市值应声蒸发8000亿美元。AI算力战争已进入一个巨头竞逐、格局重塑的新阶段。

博客

Meta第三代“分割一切”模型——SAM 3本地部署教程：首支持文本提示分割，400万概念、30毫秒响应，检测分割追踪一网打尽

11-25

1032

SAM 3 是一个统一的基础模型，用于图像和视频中的可提示分割。它可以使用文本或视觉提示（如点、框和掩码）来检测、分割和跟踪对象。与它的前身相比，SAM 3 引入了根据简短的文本短语或示例详尽地分割所有开放词汇概念实例的能力。与先前的工作不同，SAM 3 可以处理更大范围的开放词汇提示。在新上，它达到了人类表现的 75-80%，该基准包含 27 万个独特概念，比现有基准多出 50 多倍。

博客

编程AI新王Claude Opus 4.5正式发布！编程基准突破80.9%，成本降三分之二

11-25

319

距离谷歌的Gemini 3 Pro发布尚不足一周，AI领域又迎来一轮更新潮？

博客

基于GitHub Actions与算力平台API：构建端到端的模型自动训练与部署流水线

11-24

855

通过GitHub Actions与算力平台API的集成，我们能够构建一个完全自动化的模型训练与部署流水线。这种方案不仅大幅提升了机器学习项目的迭代效率，还通过动态资源调度优化了计算成本。随着AI应用场景的不断扩展，基于CI/CD的自动化机器学习流水线将成为团队协作和模型交付的标准实践，而算力平台的API化则让这一过程的实现变得更加简单和高效。

博客

千问一周破千万下载背后：AI应用需求的爆发与生态竞赛

11-24

403

千问APP公测一周下载量突破1000万次，成为史上增长最快的AI应用，这背后是AI技术从实验室走向日常生活的加速转变。

博客

解决AI任务排队难题：基于Slurm的优先级调度与资源抢占策略配置详解

11-21

988

在高负荷的AI算力平台中，任务排队是影响研发效率的核心瓶颈。本文将深入介绍基于Slurm作业调度系统的优先级调度机制与资源抢占策略，通过实际配置案例展示如何优化计算资源分配，显著减少任务空闲等待时间。Slurm支援任务抢占功能，高优先权任务可抢占低优先权任务资源。被抢占任务可以取消、重设或挂起。如果启用回填调度（预设），系统会按bf_interval周期计算低优任务能否在不延迟高优任务前提下运行。

博客

黄仁勋马斯克罕见同台！定调AI未来三大关键词：算力、货币失效与泡沫

11-21

1159

而如今，生成式AI正在系统性地重塑这一格局——从智能对话、内容创作到新一代搜索引擎，这些基于生成式计算的任务对GPU算力提出了远超以往的需求。因为AI把图像分析做得更快、更准，医生就可以看更多图像、更多种类的影像，有更多时间和病人沟通，结果服务了更多患者。首先，数据洪流的计算范式转型。面对日益庞大的数据规模，传统CPU架构已难以满足高效处理需求，这促使整个行业向并行加速计算范式迁移，为人工智能的蓬勃发展奠定了坚实基础。在这个AI技术快速演进的时代，可以确定的是，算力作为数字经济新基建的地位将愈发稳固。

博客

可持续编码24小时！GPT-5.1-Codex-Max发布：集成主流IDE

11-20

367

两大AI巨头同时发力，两大编程助手谁强谁弱？

博客

Gemini 3.0重磅发布！架构革新：百万上下文、全模态推理与开发者生态重构

11-19

533

在系统架构设计中，它能够理解复杂的技术需求，提供合理的架构方案并生成相应的实现代码。这些进步体现在实际编码场景中，包括更好的代码质量、更准确的算法实现，以及更强的系统架构设计能力。在实际开发中，开发者现在可以直接将整个项目代码库输入模型，获得基于全局上下文的代码分析和优化建议，无需再采用分段处理的复杂方案。测试显示，该模型能够快速理解大型遗留系统的代码结构，识别潜在的技术风险，并提出具体的重构建议。全世界都在期待的Gemini 3，在质的飞跃中，实现了AI大模型又一次“史诗级”飞跃。

博客

Grok 4.1深夜发布！算力需求跃升背后的技术演进与开发者机遇

11-18

661

如果您正在进行AI领域的创业或研究，

博客

千问APP正式上线！基于Qwen 3技术，阿里的AI to C战略全面启航

11-17

400

今天，阿里全力进军AI to C市场，统一其to C品牌：千问App公测版正式上线各大应用商店。

博客

11-14

378

每年数千例肝移植因捐献者死亡时间预测不准而失败。今天，AI给出了精准解决方案。

博客

PaddleOCR-VL-vLLM-OpenAI-API使用教程来了！手把手教你搞定文档解析！

11-13

1025

PaddleOCR-VL 是一个基于视觉语言模型的多功能图像识别工具，支持 OCR 文字识别、表格识别、公式识别和图表识别等功能。本文档介绍如何通过 OpenAI 兼容的 API 接口使用该模型。功能验证状态: 所有四种任务类型已通过完整测试，功能稳定可用（测试时间：2025-11-07）

博客

GPT-5.1深夜发布却无惊喜？从GPT-5.1看大模型发展瓶颈

11-13

709

当AI的进化带来的惊喜越来越少，我们不禁要问：大模型时代是否已经触及天花板？

博客

DeepSeek大神正式加盟小米！AI竞赛的终局，远不止一次挖角

11-12

350

当顶尖人才流向科技巨头，普通企业如何在这场AI竞赛中找到自己的位置？

博客

从李飞飞“空间智能”长文看AGI实现路径：数据与算法是双重挑战

11-11

368

刚刚，李飞飞指出了AI被忽视的关键缺陷——AI仍然是个“黑暗中的文字匠”。

博客

谷歌攻克AI“灾难性遗忘“难题！最新范式突破AI持续学习内存瓶颈

11-10

369

谷歌的新研究，让AI也能像人类一样持续学习而不遗忘了。