ComfyUI + 腾讯 Sonic 节点实战：三步实现图片开口说话

原创

已于 2025-05-09 17:33:04 修改 · 1.7k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2025-04-11 18:10:00 首次发布

一、技术背景与核心优势

在 AI 多模态技术爆发的今天，如何让静态图片 “开口说话” 成为热门课题。腾讯开源的 Sonic 模型通过图像 + 音频驱动数字人视频生成，而 ComfyUI 作为节点式工作流工具，能将这一过程简化为可视化操作。两者结合后，开发者只需 3 步即可实现：

上传人物照片：支持正面 / 侧面高清肖像
输入语音文件：支持 WAV/MP3 等格式
一键生成视频：自动匹配口型与动作

ComfyUI + 腾讯 Sonic 节点实战，让图片说话

二、环境搭建与模型准备

（本地部署可以参考其他资料）

1. 云平台部署

快速创建实例：登录控制台，选择ComfyUI 官方镜像，如果配置 RTX 4090 显卡，实测生成一分钟的视频需要20分钟左右。
官网链接：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

OneThingAI

关注关注

9
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

畅游Diffusion数字人(26)：腾讯音频驱动数字人技术Sonic

沉迷单车的追风少年

04-16

695

之前绝大多数Diffusion数字人都是基于AnimateDiff基础模型的，基于SVD基础模型的非常少。最近腾讯发布了基于SVD的数字人技术Sonic，效果非常好，甚至比基于CogVideox的Hallo3的还要惊艳，值得深入研究。

腾讯&浙大开辟新数字人生成新范式！Sonic：基于全局音频感知的肖像动画

A_D_I_D_A_S的博客

12-13

806

Sonic: Shifting Focus to Global Audio Perception in Portrait Animation

参与评论您还未登录，请先登录后发表或查看评论

ComfyUI+Sonic实战，三步实现图片开口说话

边缘云服务提供商

04-22

491

在 AI 多模态技术爆发的今天，如何让静态图片“开口说话”成为热门课题。Sonic模型通过图像+音频驱动数字人视频生成，在视频质量、唇部同步精度、运动多样性和时间连贯性方面显著提升。ComfyUI作为节点式工作流工具，能将这一过程简化为可视化操作。两者结合后，开发者在OneThingAI平台上只需 3 步即可实现

[ComfyUI]腾讯开源黑科技Sonic，插件更新，更加可控啦

嘟嘟MD的专栏

02-15

1796

之前很喜欢的数字人开口说话项目Sonic更新了，再不会限制正方形输出了，爱了。

0成本！基于腾讯云Cloud Studio，打造属于自己的数字人口播系统，照片+音乐=自动开口，效果炸裂

tcbuy的博客

03-02

2223

通过unzip custom_nodes.zip解压到 /workspace/ComfyUI/中，确保所有文件都是放在custom_nodes目录下面、再启动ComfyUI，看看所有节点是否正常启动，没有启动的节点，进入该目录，用pip install -r requirements.txt安装一下，然后再启动查看。他们会给出解决方案，按照提示，一步一步的解决问题。打开https://ide.cloud.tencent.com/ ，点击左上角的菜单，选择“空间模板“，再点“AI模版“。

sonic一张人物图片和音频生成面部表情和动作视频工作流

q_q王的博客

06-25

205

git源码里面含有工作流，当然我已经下载好了，若需要可后台回复'sonic'可拿到工作流跟模型下载链接。大家在体验的过程中有遇到什么问题，或者有什么想实现的功能欢迎留言，大家一起讨论学习。我这个24G显存，生成3秒钟视频跑了大概140秒左右。comfyui的manger中搜索sonic,下载安装即可。，当然也可以直接下载win版的。接着咱们可以去下载节点。4、下载模型，模型文件放到models下面，文件结构如下。,今天咱们来实际操作下sonic的工作流。6、接着就可以进行测试了。话不多说，咱们开始开干。

ComfyUI_Sonic项目安装与配置指南

gitblog_00630的博客

04-08

680

ComfyUI_Sonic 是一个开源项目，该项目基于 ComfyUI，旨在为 Sonic（一个经典的游戏角色）创建一个用户界面。该项目主要用于游戏开发和学习，允许用户通过图形用户界面（GUI）与游戏进行交互。主要编程语言为 Python。 ## 2. 项目使用的关键技术和框架 - **Python**：项目的主要编程语言，用于实现逻辑和用户界面。 - **Pygame**：一个开源的 Pyt...

ComfyUI_Sonic项目教程

gitblog_01172的博客

04-08

630

ComfyUI_Sonic项目的目录结构如下： ``` ComfyUI_Sonic/ ├── config/ │ └── ... # 配置文件目录 ├── inference/ │ └── ... # 推理相关文件 ├── examples/ │ └── ... # 示例文件 ├── src/ │ └── ... # 源代码目录 ├── svd_repo/ │ └── ......

ComfyUI + 腾讯 Sonic 节点实战：三步实现图片开口说话搭建详细教程

热门推荐

zslefour的专栏

01-08

1万+

AI高速发展，版本更新相当快（11月25日才安装的版本v.0.3.4，27日版本就已经更新到v.0.3.5了），在遇到问题，找到问题原因所在的过程中，ComfyUI版本、python版本、节点对环境版本的依赖，本文就是在为了解决自己遇到问题过程中，如何快速安装ComfyUI及节点而作的笔记。

sonic-channel:用于声音搜索后端的Rust客户端

05-22

在Cargo.toml sonic-channel = { version = "0.4" }为依赖Cargo.toml 。 Cargo.toml示例： [ package ] name = " my-crate " version = " 0.1.0 " authors = [ " Me <user> " ] [ dependencies ] sonic-channel = ...

VasSonic腾讯轻量级高性能移动混合开发框架

08-11

VasSonic - 腾讯轻量级高性能移动混合开发框架

ComfyUI_Sonic开源项目使用教程

gitblog_00944的博客

04-08

1169

ComfyUI_Sonic 是一个开源项目，它基于 ComfyUI 实现了 'Sonic: Shifting Focus to Global Audio Perception in Portrait Animation' 方法。此方法通过音频感知来增强肖像动画的焦点，使得动画更加生动和自然。用户可以在 ComfyUI 中使用该技术，通过音频来控制动画的焦点。 ## 2. 项目快速启动 ### ...

comfyui 使用教程

jacke121的专栏

02-13

1295

comfyui 使用教程

腾讯发布轻量级高性能Hybrid框架-VasSonic

江清清的专栏

08-09

1028

紧急Lcode.org VasSonic轻量级Hybrid框架正式开源。VasSonic取名于世嘉游戏形象音速小子，是腾讯VAS(QQ会员)团队研发的一个轻量级的高性能的Hybrid框架，专注于提升页面首屏加载速度，完美支持静态直出页面和动态直出页面，兼容离线包等方案。该框架使用终端应用层原生传输通道取代系统浏览器内核自身资源传输通道来请求页面主资源，在移动终端初始化的同时并行请求

【亲测免费】 CosyVoice-ComfyUI：为语音克隆提供舒适体验的定制节点

gitblog_00416的博客

03-28

970

CosyVoice-ComfyUI：为语音克隆提供舒适体验的定制节点项目介绍 CosyVoice-ComfyUI 是一个为 CosyVoice 定制的 ComfyUI 节点。CosyVoice 是一个强大的语音克隆工具，而 ComfyUI 则是一个可视化编程环境，让用户可以通过拖放组件的方式构建复杂的语音合成流程。CosyVoice-ComfyUI 的出现，使得用户能够更加便捷地利用 CosyV...

腾讯开源基于SVD的数字人视频模型sonic,效果相当不多～

CherryXieのblog

02-25

1260

Sonic数字人模型是由腾讯与浙江大学合作开发的一个开源项目，它专注于通过音频驱动生成逼真的肖像动画，不在以之前SD为基础做数字人处理，而是改用SVD模型，因此视频的连贯性得到较好的改善。

腾讯祭出大招VasSonic，让你的H5页面首屏秒开

weixin_34194551的博客

08-17

552

VasSonic成长历程前言 2017.8.8 14时，SNG增值产品部Vas团队研发的轻量级高性能Hybrid框架VasSonic通过了公司最终审核，作为腾讯开源组件分享给大家。从当初立项优化页面加载速度，到不断摸索、优化，再到整理代码、文档，最终在Github上开源，并且在24小时内获取star数超过1600。我们非常高兴看到我们...

tencentSonic框架

否命题的博客

08-11

5768

这是Soinc 项目的地址https://github.com/Tencent/VasSonic这个框架做的事情是加速网页的加载速度传统的WebView加载方式是WebView 初始化后，然后去请求数据，是串行的操作由于初始化需要时间。所以这里做的事情是让WebView 初始化和请求数据并行处理，同时与服务器配合做好缓存的处理，这里的缓存分为全部缓存，局部缓存（数据，模板）。获取网络的方式