
跨模态处理
文章平均质量分 90
请站在我身后
写点东西,记录看的论文和代码,从事算法,想看未来
展开
-
读论文和复现《Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance》
本研究介绍了一种通过在潜在扩散框架内利用3D人体参数模型来增强形状对齐和运动指导的人类图像动画方法。该方法使用SMPL(Skinned Multi-Person Linear)模型作为3D人体参数模型,以建立身体形状和姿态的统一表示,从而准确捕捉源视频中复杂的人体几何和运动特征。通过结合SMPL序列生成的渲染深度图像、法线贴图和语义贴图,以及基于骨骼的运动指导,为潜在扩散模型提供了全面的3D形状和详细姿态属性。采用集成自注意力机制的多层运动融合模块,在空间域中融合形状和运动潜在表示。原创 2024-11-05 17:50:42 · 1498 阅读 · 0 评论 -
读论文《STORYMAKER: TOWARDS HOLISTIC CONSISTENT CHARACTERS IN TEXT-TO-IMAGE GENERATION》
StoryMaker 模型旨在解决现有文本到图像生成方法中缺乏多角色场景全面一致性的问题。该模型不仅保持了面部特征的一致性,还关注了服装、发型和身体的一致性,从而有助于通过一系列图像来构建故事。通过使用位置感知感知重采样器(Positional-aware Perceiver Resampler,PPR)整合面部身份信息和裁剪后的角色图像,StoryMaker 能够生成具有独特角色特征的图像。此外,为了防止多个角色和背景相互干扰,原创 2024-09-29 16:32:46 · 1241 阅读 · 0 评论 -
读论文《OmniGen: Unified Image Generation》
大型语言模型 (LLM) 的出现统一了语言生成任务,并彻底改变了人机交互。然而,在图像生成领域,能够在单个框架内处理各种任务的统一模型在很大程度上仍未得到探索。在这项工作中,我们介绍了 OmniGen,这是一种用于统一图像生成的新扩散模型。与流行的扩散模型(例如 Stable Diffusion)不同,OmniGen 不再需要 ControlNet 或 IP 适配器等额外模块来处理各种控制条件。原创 2024-09-25 11:07:11 · 1509 阅读 · 0 评论 -
读论文-使用潜在扩散模型进行高分辨率图像合成
论文名称:High-Resolution Image Synthesis with Latent Diffusion Models潜在扩散模型(LDMs)通过在预训练的自动编码器的潜在空间中应用扩散模型,实现了高分辨率图像合成。这种方法的关键是在像素空间和潜在空间之间找到一个平衡点,既能减少计算复杂性,又能保留足够的细节信息。原创 2024-09-20 17:35:57 · 946 阅读 · 0 评论 -
Mini-Omni:语言模型可以在流中听、说和思考
读论文《Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming》目前比较火的一篇论文,分享给大家。原创 2024-09-12 15:09:17 · 1580 阅读 · 0 评论 -
读论文《Sapiens: Foundation for Human Vision Models》
Sapiens 是由 Rawal Khirodkar 等人开发的一系列模型,旨在处理四个关键的以人为中心的视觉任务:2D 姿态估计、身体部位分割、深度预测和表面法线预测。这些任务对于理解图像中的人体和生成逼真的3D 人类模型至关重要。Sapiens 模型通过在大规模的野外人类图像数据集上进行自监督预训练,然后针对特定任务进行微调,以实现高性能。Sapiens 模型针对四项人工任务进行了微调 - 2D 姿势估计、身体部位分割、深度预测和法线预测。我们的模型适用于各种野外面部、上半身、全身和多人图像。原创 2024-09-11 17:48:16 · 1020 阅读 · 0 评论 -
读论文《SHOW-O》8.22发布的贼强的大模型多模态理解和生成解决方案
Show-o,它统一了多模态理解和生成。与完全自回归模型不同,Show-o 统一了自回归和(离散)扩散建模,以自适应地处理各种混合模态的输入和输出。统一模型灵活地支持广泛的视觉语言任务,包括视觉问答、文本到图像生成、文本引导修复/外推和混合模态生成。在各种基准测试中,它展示了与现有单个模型相当或更好的性能,这些模型具有等效或更多为理解或生成而定制的参数。这显著凸显了其作为下一代基础模型的潜力。听着很厉害,不同模态完全混合。原创 2024-08-27 15:40:24 · 2207 阅读 · 0 评论 -
读论文《ACN: Adversarial Co-training Network for Brain Tumor Segmentation with Missing Modalities》
论文题目;基于缺失模式的脑肿瘤分割的对抗性协同训练网络论文提出了一种新颖的对抗性协同训练网络(Adversarial Co-training Network, ACN),用于处理医学图像分割中缺失模态的问题。原创 2024-08-13 17:54:51 · 872 阅读 · 0 评论 -
读论文《PROTOTYPE KNOWLEDGE DISTILLATION FOR MEDICAL SEGMENTATION WITH MISSING MODALITY》
论文题目:缺失模态医学分割的原型知识蒸馏。原创 2024-08-13 17:46:33 · 1086 阅读 · 0 评论 -
读论文《Variable Augmented Network for InvertibleModality Synthesis-Fusion》
可逆模态综合融合的变增广网络这篇论文提出了一种名为iVAN(invertible and variable augmented network)的方法,用于医学图像的合成和融合。原创 2024-07-29 11:21:47 · 1138 阅读 · 0 评论 -
读论文《Hi-Net: Hybrid-fusion Network for Multi-modalMR Image Synthesis》
磁共振成像(MRI)是一种广泛使用的神经成像技术,可以提供不同对比度(即模式)的图像。事实证明,融合这种多模态数据对于提高许多任务中的模型性能特别有效。然而,由于数据质量差和患者频繁退出,收集每个患者的所有模式仍然是一个挑战。医学图像合成是一种有效的解决方案,它从现有的图像中合成缺失的图像。在本文中,我们提出了一种用于多模态磁共振图像合成的新型混合融合网络(Hi-Net),它学习从多模态源图像(即现有模态)到目标图像(即缺失模态)的映射。原创 2024-07-23 11:53:32 · 1043 阅读 · 3 评论 -
ResViT 代码复现和讲解
论文题目:ResViT: Residual vision transformers for multi-modal medical image synthesis一种新的用于多模态医学图像合成的生成对抗方法。原创 2024-07-22 16:28:55 · 855 阅读 · 2 评论 -
读论文《ResViT: Residual vision transformers for multi-modal medical image synthesis》
具有卷积神经网络(CNN)主干的生成对抗模型最近在许多医学图像合成任务中被建立为最先进的模型。然而,cnn被设计为使用紧凑过滤器执行局部处理,这种归纳偏差损害了上下文特征的学习。在这里,我们提出了一种新的医学图像合成生成对抗方法,即ResViT,它利用了视觉的上下文敏感性以及卷积算子的精度和对抗学习的真实感。ResViT的生成器采用了一个由新型聚合残差变压器(ART)模块组成的中心瓶颈,该模块协同结合了残差卷积和变压器模块。ART块中的残差连接促进捕获表示的多样性,而信道压缩模块提取任务相关信息。原创 2024-07-22 16:15:28 · 1525 阅读 · 0 评论 -
让像素艺术家失业!像素化代码实操教程
本文介绍大佬写的一篇图像像素化 的操作方式,十分简单!跟着来十分钟就好,大家可以用来生成自己的像素风格的头像之类的,代码详情有需要再讲。原创 2024-06-14 11:02:25 · 802 阅读 · 0 评论