
AIGC
文章平均质量分 83
请站在我身后
写点东西,记录看的论文和代码,从事算法,想看未来
展开
-
复现Qwen-Audio 千问
(Qwen 大型音频语言模型)是阿里云提出的大型模型系列 Qwen(简称通义千文)的多模态版本。Qwen-Audio 接受各种音频(人类语音、自然声音、音乐和歌曲)和文本作为输入、输出文本。QwenLM/Qwen-Audio:Qwen-Audio(通义千问-Audio)聊天的官方仓库和由阿里云提出的预训练大型音频语言模型。query 传入的是音频地址,text是提示词 ,因为可以连续问答,所有history可以多加利用。复现没遇到什么问题,如果遇到问题,请留言。3、新建test.py 复制下面代码。原创 2024-12-25 15:26:28 · 640 阅读 · 2 评论 -
最新的强大的文生视频模型Pyramid Flow 论文阅读及复现
论文提出了一种高效的视频生成建模方法,称为金字塔流匹配,旨在通过降低计算复杂度来优化视频生成过程。该方法避免了直接在全分辨率下进行训练,而是将视频生成过程分解为多个在不同分辨率下运行的金字塔阶段,仅在最终阶段达到全分辨率。连续性:不同金字塔阶段的生成轨迹相互链接,后续阶段继续从前一阶段生成,避免了每个阶段从纯噪声重新生成的需要。统一模型:与为每个图像金字塔使用独立模型不同,金字塔流匹配算法将它们集成到一个统一的模型中,通过端到端优化实现更优雅的实现,并大幅加快训练速度。原创 2024-12-25 15:16:41 · 1646 阅读 · 3 评论 -
分享部分dance 数据集
分享一些dance 数据集原创 2024-12-03 17:56:56 · 1222 阅读 · 0 评论 -
复现《Bidirectionally Deformable Motion Modulation》代码简单说明
代码复现Bdmm原创 2024-12-03 17:42:26 · 828 阅读 · 0 评论 -
读论文《Bidirectionally Deformable Motion Modulation For Video-based Human Pose Transfer》
本文提出了一种新颖的变形运动调制(Deformable Motion Modulation, DMM)方法,用于基于视频的人体姿态转移任务,该任务旨在根据一系列目标人体姿态来动画化一个简单的源人体图像。针对在服装结构图案传递和不连续姿态上存在的问题,现有方法常常产生不满意的结果,如扭曲的纹理和闪烁的伪影。我们的方法利用几何核偏移和自适应权重调制来同时执行特征对齐和风格迁移。与通常的风格调制不同,我们提出的调制机制根据目标形状通过不规则的感受野来适应性地重建风格代码的平滑帧。为了增强时空一致性,我们。原创 2024-12-02 10:56:22 · 1087 阅读 · 0 评论 -
读论文《MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views》
MVSplat360是一种前馈方法,用于从稀疏视图合成多样化真实世界场景的360°新视角(NVS)。这种设置由于输入视图之间的最小重叠和提供的视觉信息不足,本质上是不适定的,使得传统方法难以实现高质量的结果。MVSplat360通过有效地结合几何感知的3D重建和时间一致的视频生成来解决这个问题。具体来说,它重构了一个前馈3D高斯绘制(3DGS)模型,将特征直接渲染到预训练的稳定视频扩散(SVD)模型的潜在空间中,这些特征然后作为姿态和视觉线索指导去噪过程,产生逼真的3D一致视图。原创 2024-11-11 10:33:56 · 1145 阅读 · 0 评论 -
模型自动绑骨,在线生成动画,神奇的网站《Mixamo》
模型自动绑骨,在线生成动画,神奇的网站《Mixamo》原创 2024-11-05 18:10:28 · 6409 阅读 · 0 评论