数字人
文章平均质量分 89
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
让虚拟人秒懂人类情感!多模态DiT架构炸裂升级:字节OmniHuman-1.5让Ta拥有灵魂!
本文提出OmniHuman-1.5,一种基于认知科学双系统理论(系统1反应性思维与系统2审慎思维)的视频虚拟人生成新范式。通过结合多模态大语言模型(MLLM)的高层语义推理(系统2)与多模态Diffusion Transformer(MMDiT)的低层信号融合(系统1),模型实现了动作的物理合理性与语义一致性。创新点包括:1)采用MLLM智能体生成结构化行为计划;2)设计对称多模态分支与伪最后一帧策略解决模态冲突。原创 2025-09-08 08:00:00 · 1335 阅读 · 0 评论 -
一张照片,开口说话!阿里等最新音视频对齐技术FantasyTalking:打造超写实可控数字人!
阿里等发布FantasyTalking,通过单张照片+音频,实现与输入音频对应的、包含背景和上下文对象(而不仅限于肖像本身)的连贯全局运动,并能够构建精确对齐的唇部运动视频。原创 2025-04-11 23:26:45 · 1437 阅读 · 0 评论
分享