图片生成对嘴视频FLOAT

之前已经介绍过图片对嘴生成视频的开源工具:

DICE-Talk:https://www.cnblogs.com/cj8988/p/18957718   (带表情,比较慢)

ComfyUI_Sonic:https://www.cnblogs.com/cj8988/p/18952604 (基础版)

 

本章在介绍一个图片生成对嘴视频的开源框架,带表情,生成比较快的。

float : https://github.com/deepbrainai-research/float

 

我这里使用集合ComfyUI版本:https://github.com/yuvraj108c/ComfyUI-FLOAT

 

一:下载源码

地址:https://github.com/yuvraj108c/ComfyUI-FLOAT

下载到指定目录:\ComfyUI\custom_nodes\

 

 

二:下载模型

 地址:https://huggingface.co/yuvraj108c/float/tree/main

下载到指定目录:\ComfyUI\models\float\

 

 

三:安装插件

cd ./ComfyUI-FLOAT
pip install -r requirements.txt

 

 

四:运行

python  main.py

运行成功后,浏览器访问
http://127.0.0.1:8188/

 

 

然后将模板文件json拖拽进去:\ComfyUI\custom_nodes\ComfyUI-FLOAT\float_workflow.json

 

五:使用

上传一张图片,和一段音频,很快就生成了一个视频。图片必须是512*512尺寸的,其他尺寸都会被裁剪。

 

比较一下:

特性ComfyUI_Sonic (新一代)ComfyUI-FLOAT (上一代)优胜者 & 原因
核心技术与语言无关 (Language-Agnostic)。直接从音频波形提取特征 (HuBERT),驱动面部运动。依赖于特定语言的ASR。将语音转为音素,再由音素驱动嘴唇。🏆 Sonic: 先进的技术路线,使其天生支持任何语言。
中文支持✅ 完美支持。无需任何修改,直接输入中文音频即可。✅ 支持。其核心模块是为英语设计的,如果是中文,表情方面处理不好。🏆 Sonic: 这是最关键的区别,Sonic 开箱即用。
生成速度🚀 极快 (接近实时)。模型轻量、高效。🐢 较慢。涉及多个串联的、较重的模型,流程更长。🏆 Sonic: 效率上是碾压性的优势。
口型精度✨ 非常高。能够捕捉细微的发音,口型清晰、准确。😐 一般。基于音素的生成方式有时会产生“平均嘴型”,不够精细。🏆 Sonic: 口型同步的质量更高。
资源占用 (VRAM)💧 较低。对硬件更友好。🔥 较高。需要同时加载多个模型。🏆 Sonic: 更适合大众用户的硬件配置。
头部姿态头部基本静止。头部会动,但是尺寸会裁剪为512*512。🤝 平手: 两者默认都不生成头部运动。
面部表情主要驱动口周区域,表情变化有限。✅ 有专门的情感识别模块,可以驱动眉毛等表情。🏆 FLOAT: 这是 FLOAT 理论上的唯一优势,但受限于其只支持英文。
安装与配置简单,通过 ComfyUI Manager 一键安装,模型依赖清晰。复杂,模型依赖多且容易出错(正如你遇到的问题)。🏆 Sonic: 用户体验更好,更不容易出问题。

FloatSonic
计及源荷不确定性的综合能源生产单元运行调度与容量配置优化研究(Matlab代码实现)内容概要:本文围绕“计及源荷不确定性的综合能源生产单元运行调度与容量配置优化”展开研究,利用Matlab代码实现相关模型的构建与仿真。研究重点在于综合能源系统中多能耦合特性以及风、光等可再生能源出力和负荷需求的不确定性,通过鲁棒优化、场景生成(如Copula方法)、两阶段优化等手段,实现对能源生产单元的运行调度与容量配置的协同优化,旨在提高系统经济性、可靠性和可再生能源消纳能力。文中提及多种优化算法(如BFO、CPO、PSO等)在调度与预测中的应用,并强调了模型在实际能源系统规划与运行中的参考价值。; 适合人群:具备一定电力系统、能源系统或优化理论基础的研究生、科研人员及工程技术人员,熟悉Matlab编程和基本优化工具(如Yalmip)。; 使用场景及目标:①用于学习和复现综合能源系统中考虑不确定性的优化调度与容量配置方法;②为含高比例可再生能源的微电网、区域能源系统规划设计提供模型参考和技术支持;③开展学术研究,如撰写论文、课题申报时的技术方案借鉴。; 阅读建议:建议结合文中提到的Matlab代码和网盘资料,先理解基础模型(如功率平衡、设备模型),再逐步深入不确定性建模与优化求解过程,注意区分鲁棒优化、随机优化与分布鲁棒优化的适用场景,并尝试复现关键案例以加深理解。
内容概要:本文系统分析了DesignData(设计数据)的存储结构,围绕其形态多元化、版本关联性强、读写特性差异化等核心特性,提出了灵活性、版本化、高效性、一致性和可扩展性五大设计原则。文章深入剖析了三类主流存储方案:关系型数据库适用于结构化元信息存储,具备强一致性与高效查询能力;文档型数据库适配半结构化数据,支持动态字段扩展与嵌套结构;对象存储结合元数据索引则有效应对非结构化大文件的存储需求,具备高扩展性与低成本优势。同时,文章从版本管理、性能优化和数据安全三个关键维度提出设计要点,建议采用全量与增量结合的版本策略、索引与缓存优化性能、并通过权限控制、MD5校验和备份机制保障数据安全。最后提出按数据形态分层存储的核心结论,并针对不同规模团队给出实践建议。; 适合人群:从事工业设计、UI/UX设计、工程设计等领域数字化系统开发的技术人员,以及负责设计数据管理系统架构设计的中高级工程师和系统架构师。; 使用场景及目标:①为设计数据管理系统选型提供依据,合理选择或组合使用关系型数据库、文档型数据库与对象存储;②构建支持版本追溯、高性能访问、安全可控的DesignData存储体系;③解决多用户协作、大文件存储、历史版本管理等实际业务挑战。; 阅读建议:此资源以实际应用场景为导向,结合具体数据库类型和表结构设计进行讲解,建议读者结合自身业务数据特征,对比分析不同存储方案的适用边界,并在系统设计中综合考虑成本、性能与可维护性之间的平衡。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值