ComfyUI+Sonic实战,三步实现图片开口说话

ComfyUI

ComfyUI

AI应用
ComfyUI

ComfyUI是一款易于上手的工作流设计工具,具有以下特点:基于工作流节点设计,可视化工作流搭建,快速切换工作流,对显存占用小,速度快,支持多种插件,如ADetailer、Controlnet和AnimateDIFF等

在 AI 多模态技术爆发的今天,如何让静态图片“开口说话”成为热门课题。Sonic模型通过图像+音频驱动数字人视频生成,在视频质量、唇部同步精度、运动多样性和时间连贯性方面显著提升。

ComfyUI作为节点式工作流工具,能将这一过程简化为可视化操作。两者结合后,开发者在OneThingAI平台上只需 3 步即可实现:

1. 上传人物照片

支持正面 / 侧面高清肖像

2. 输入语音文件

支持 WAV/MP3 等格式

3. 一键生成视频

自动匹配口型与动作

环境搭建与模型准备

1. 云平台部署

登录OneThingAI控制台,选择ComfyUI官方镜像,如配置RTX 4090显卡,实测生成一分钟的视频需要20分钟左右。

2. 模型&节点

下载Sonic模型并安装到对应路径下

  • 关键模型说明
unet.pth  |  核心生成网络  |  Sonic仓库
yoloface v5m.pt  |  人脸检测模型  |  LeonJoe13/Sonic 仓库
svd xt 1 1.safetensors  |  动态视频扩散模型  |  hugging face
  • Sonic模型地址

模型下载:https://gitcode.com/gh_mirrors/co/ComfyUI_Sonic

节点下截:https://gitcode.com/gh_mirrors/sonic5/Sonic

安装路径:/root/ComfyUI/models/

  • Svd模型地址

模型下载:https://huggingface.co/vdo/stable-video-diffusion-img2vid-xt-1-1/blob/main/svd_xt_1_1.safetensors

安装路径:/root/ComfyUI/models/checkpoints/

注:以上可通过ComfyUI镜像中的下载器下载,如下图所示

3. Sonic节点下载步骤

在ComfyUI管理器 → 节点管理 → 搜索Sonic → 下载相关节点 → 下载完成后点击【重启】实例。如下图所示

工作流搭建与参数调整

1.工作流

上传图片和音频即可生成视频。如下图所示:

2. 关键参数详解

duration  |  1-600 秒  |  控制视频总时长
min resolution  |  384-1024  |  调整视频最短边分辨率
motion scale  |  0.5-2.0  |  控制数字人动作幅度
face_padding  |  0-0.3  |  人脸裁剪留白比例

通过ComfyUI与Sonic的结合,我们借助OneThingAI算力云平台可实现从静态图片到动态数字人的全流程自动化。

您可能感兴趣的与本文相关的镜像

ComfyUI

ComfyUI

AI应用
ComfyUI

ComfyUI是一款易于上手的工作流设计工具,具有以下特点:基于工作流节点设计,可视化工作流搭建,快速切换工作流,对显存占用小,速度快,支持多种插件,如ADetailer、Controlnet和AnimateDIFF等

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

网心科技

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值