
文生视频
文章平均质量分 70
杰说新技术
AIGC最新前言落地技术研讨
展开
-
金字塔流匹配视频生成模型Pyramid-Flow分享
Pyramid-Flow是一个由北京大学、快手科技和北京邮电大学的研究人员联合开发的视频生成模型。Pyramid-Flow的核心是其创新的金字塔流匹配算法,该算法能够将视频生成过程分解成多个不同分辨率的阶段,每个阶段都负责从低分辨率向高分辨率逐渐细化图像。Pyramid-Flow的另一个关键特性是它的自回归框架,框架下视频中的每一帧都是基于前一帧或历史帧的信息预测而来的,从而保证了动作的一致性和流畅性。原创 2024-12-06 06:00:00 · 443 阅读 · 0 评论 -
支持高达20s的文生视频,书生·筑梦Vchitect2.0模型分享
Vchitect2.0,也称为书生·筑梦2.0,是由上海人工智能实验室推出的一款新一代视频生成大模型。Vchitect2.0模型集成了文生视频、图生视频、插帧超分、训练系统一体化的功能,支持长达5秒至20秒的视频生成,分辨率可达到720x480。Vchitect 2.0还支持多种视频格式,包括横屏、竖屏、4:3、9:16和16:9等比例,极大地扩展了其应用场景。原创 2024-11-18 06:00:00 · 451 阅读 · 0 评论 -
最新阿里开源视频生成框架Tora部署
Tora是由阿里团队推出的一种基于轨迹导向的扩散变换器(Diffusion Transformer, DiT)技术的AI视频生成框架。Tora在生成过程中可以接受多种形式的输入,包括文字描述、图片或物体移动的路线,并据此制作出既真实又流畅的视频。通过引入轨迹控制机制,Tora能够更精确地控制视频中物体的运动模式,解决了现有模型难以生成具有精确一致运动的问题。Tora采用两阶段训练过程,首先使用密集光流进行训练,然后使用稀疏轨迹进行微调,以提高模型对各种类型轨迹数据的适应性。原创 2024-10-28 06:00:00 · 1103 阅读 · 0 评论 -
超越sora,最新文生视频CogVideoX-5b模型分享
CogVideoX-5B 是由智谱AI开发的一款视频生成大模型,它是在先前版本CogVideoX-2B的基础上进行的重大升级。这一版本不仅提高了视频生成的质量,增强了视觉效果,而且还通过优化推理性能,降低了运行所需的硬件门槛,使得更多用户能够在现有的硬件条件下使用这一先进的技术。CogVideoX-5B模型采用了3D因果变分自编码器(3D causal VAE)和专家Transformer技术,结合文本和视频嵌入,使用3D-RoPE作为位置编码,并利用3D全注意力机制进行时空联合建模。原创 2024-09-23 06:00:00 · 940 阅读 · 0 评论 -
最新动态一致的文生视频大模型FancyVideo部署
FancyVideo是由360AI团队与中山大学联合开发的一种创新视频生成模型。FancyVideo模型基于UNet架构,旨在解决现有视频生成模型在动作连贯性和情节流畅性方面存在的问题。FancyVideo通过引入跨帧文本引导模块(Cross-frame Textual Guidance Module, CTGM)来改进现有的文本控制机制。实验结果表明,FancyVideo在EvalCrafter Benchmark上的定量评估和其他T2V模型相比,在视频生成质量、文本一致性、运动性和时序一致性方面均原创 2024-09-20 06:00:00 · 634 阅读 · 0 评论 -
超越sora,最强文生视频CogVideo模型落地分享
CogVideo是由智谱AI开源的视频生成模型,它是与商业版视频生成产品“清影”同源的模型。CogVideoX-2B是CogVideoX系列中的第一个模型,拥有20亿参数,支持在单张4090显卡上进行推理,推理时的显存消耗为18GB,微调时显存消耗为40GB。CogVideoX-2B通过3D VAE在空间和时间维度上压缩视频数据,实现了高压缩率和优秀的重建质量。此外,模型还包括编码器、解码器和潜在空间正则化器,通过因果卷积机制确保信息处理的连贯性和逻辑性。原创 2024-08-12 06:00:00 · 1402 阅读 · 0 评论