- 博客(81)
- 收藏
- 关注
原创 复现Qwen-Audio 千问
(Qwen 大型音频语言模型)是阿里云提出的大型模型系列 Qwen(简称通义千文)的多模态版本。Qwen-Audio 接受各种音频(人类语音、自然声音、音乐和歌曲)和文本作为输入、输出文本。QwenLM/Qwen-Audio:Qwen-Audio(通义千问-Audio)聊天的官方仓库和由阿里云提出的预训练大型音频语言模型。query 传入的是音频地址,text是提示词 ,因为可以连续问答,所有history可以多加利用。复现没遇到什么问题,如果遇到问题,请留言。3、新建test.py 复制下面代码。
2024-12-25 15:26:28
565
3
原创 最新的强大的文生视频模型Pyramid Flow 论文阅读及复现
论文提出了一种高效的视频生成建模方法,称为金字塔流匹配,旨在通过降低计算复杂度来优化视频生成过程。该方法避免了直接在全分辨率下进行训练,而是将视频生成过程分解为多个在不同分辨率下运行的金字塔阶段,仅在最终阶段达到全分辨率。连续性:不同金字塔阶段的生成轨迹相互链接,后续阶段继续从前一阶段生成,避免了每个阶段从纯噪声重新生成的需要。统一模型:与为每个图像金字塔使用独立模型不同,金字塔流匹配算法将它们集成到一个统一的模型中,通过端到端优化实现更优雅的实现,并大幅加快训练速度。
2024-12-25 15:16:41
1526
4
原创 读论文《Bidirectionally Deformable Motion Modulation For Video-based Human Pose Transfer》
本文提出了一种新颖的变形运动调制(Deformable Motion Modulation, DMM)方法,用于基于视频的人体姿态转移任务,该任务旨在根据一系列目标人体姿态来动画化一个简单的源人体图像。针对在服装结构图案传递和不连续姿态上存在的问题,现有方法常常产生不满意的结果,如扭曲的纹理和闪烁的伪影。我们的方法利用几何核偏移和自适应权重调制来同时执行特征对齐和风格迁移。与通常的风格调制不同,我们提出的调制机制根据目标形状通过不规则的感受野来适应性地重建风格代码的平滑帧。为了增强时空一致性,我们。
2024-12-02 10:56:22
1047
1
原创 读论文《MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views》
MVSplat360是一种前馈方法,用于从稀疏视图合成多样化真实世界场景的360°新视角(NVS)。这种设置由于输入视图之间的最小重叠和提供的视觉信息不足,本质上是不适定的,使得传统方法难以实现高质量的结果。MVSplat360通过有效地结合几何感知的3D重建和时间一致的视频生成来解决这个问题。具体来说,它重构了一个前馈3D高斯绘制(3DGS)模型,将特征直接渲染到预训练的稳定视频扩散(SVD)模型的潜在空间中,这些特征然后作为姿态和视觉线索指导去噪过程,产生逼真的3D一致视图。
2024-11-11 10:33:56
1064
原创 读论文和复现《Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance》
本研究介绍了一种通过在潜在扩散框架内利用3D人体参数模型来增强形状对齐和运动指导的人类图像动画方法。该方法使用SMPL(Skinned Multi-Person Linear)模型作为3D人体参数模型,以建立身体形状和姿态的统一表示,从而准确捕捉源视频中复杂的人体几何和运动特征。通过结合SMPL序列生成的渲染深度图像、法线贴图和语义贴图,以及基于骨骼的运动指导,为潜在扩散模型提供了全面的3D形状和详细姿态属性。采用集成自注意力机制的多层运动融合模块,在空间域中融合形状和运动潜在表示。
2024-11-05 17:50:42
1419
1
原创 读论文《ECON: Explicit Clothed humans Optimized via Normal integration》
本文提出了一种名为ECON的方法,用于从单张彩色图像中重建详细的3D人体模型。该方法结合了显式人体参数化模型和隐式表示的长处,通过三个步骤实现:(1) 预测服装人体前后表面的2D法线图;(2) 将法线图转换成2.5D的前后表面,并使用SMPL-X模型进行对齐;(3) 填补两个表面之间的缺失几何结构。此外,可以选择使用SMPL-X中的面部和手部替换细节部分。ECON在CAPE和Renderpeople数据集上的定量评估中超越了先前的方法,并且在感知研究中也显示出更好的真实感。
2024-10-09 15:33:33
764
原创 读论文《3DTOPIA-XL: SCALING HIGH-QUALITY 3D ASSET GENERATION VIA PRIMITIVE DIFFUSION》
给定一个纹理化的3D网格,我们将其3D形状建模为符号距离函数(SDF),并且给定形状表面的邻域,我们定义了空间变化的颜色函数和材料函数。所有形状、纹理和材料信息可以由体积函数参数化。PrimX表示法的目标是近似这个体积函数,通过一组分布在网格表面的体积原始图元来实现。每个原始图元是一个小体素,由其3D位置、全局缩放因子和对应的空间变化特征负载参数化。这些原始图元的加权组合用于近似纹理网格。PrimX:提出了一种新的3D表示方法,将3D形状、纹理和材料表示为紧凑的N×D张量。原始图元压缩。
2024-09-30 15:33:31
1372
原创 图像推理拼接问题
2、叠加拼接,例:将图像大小设置64,步长48,这样机会有部分叠加在一起,记录每个像素的叠加次数最后做个除法。推理的时候因为类似图片过大等原因需要对图像分patch后推理再拼接回来,但是拼接的过程中很容易遇到拼接处不自然的情况,这里记录部分方法。2、因为要取中间的作为拼接块,要考虑边缘,如果取中间32大小,每个边缘需要填充 (96-32)/2 最后的大小为(448,448)1、为了使的每个推理块都相同大小,需要为原图像添加边缘 ,如果要取96推理块,则添加需要把原图填充为(4*96,384)大小。
2024-09-30 10:13:45
247
原创 读论文《STORYMAKER: TOWARDS HOLISTIC CONSISTENT CHARACTERS IN TEXT-TO-IMAGE GENERATION》
StoryMaker 模型旨在解决现有文本到图像生成方法中缺乏多角色场景全面一致性的问题。该模型不仅保持了面部特征的一致性,还关注了服装、发型和身体的一致性,从而有助于通过一系列图像来构建故事。通过使用位置感知感知重采样器(Positional-aware Perceiver Resampler,PPR)整合面部身份信息和裁剪后的角色图像,StoryMaker 能够生成具有独特角色特征的图像。此外,为了防止多个角色和背景相互干扰,
2024-09-29 16:32:46
1225
原创 读论文《OmniGen: Unified Image Generation》
大型语言模型 (LLM) 的出现统一了语言生成任务,并彻底改变了人机交互。然而,在图像生成领域,能够在单个框架内处理各种任务的统一模型在很大程度上仍未得到探索。在这项工作中,我们介绍了 OmniGen,这是一种用于统一图像生成的新扩散模型。与流行的扩散模型(例如 Stable Diffusion)不同,OmniGen 不再需要 ControlNet 或 IP 适配器等额外模块来处理各种控制条件。
2024-09-25 11:07:11
1424
原创 读论文《Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models》
尽管图像到3D生成领域取得了巨大进展,现有方法在生成具有高分辨率纹理细节的多视角一致图像方面仍然存在挑战,尤其是在缺乏3D感知的2D扩散模型范式中。本文提出了一种名为Hi3D的高分辨率图像到3D生成框架,该框架首先从输入图像生成多视角一致的图像,然后从这些生成的图像重建高保真的3D网格。Hi3D通过利用预训练的视频扩散模型,将单图像到多视角图像的转换重新定义为3D感知的序列图像生成(即轨道视频生成)。这种方法深入挖掘了视频扩散模型中的时间一致性知识,这些知识可以很好地推广到3D生成中的几何一致性。
2024-09-20 17:59:39
1246
原创 读论文-使用潜在扩散模型进行高分辨率图像合成
论文名称:High-Resolution Image Synthesis with Latent Diffusion Models潜在扩散模型(LDMs)通过在预训练的自动编码器的潜在空间中应用扩散模型,实现了高分辨率图像合成。这种方法的关键是在像素空间和潜在空间之间找到一个平衡点,既能减少计算复杂性,又能保留足够的细节信息。
2024-09-20 17:35:57
897
原创 Mini-Omni:语言模型可以在流中听、说和思考
读论文《Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming》目前比较火的一篇论文,分享给大家。
2024-09-12 15:09:17
1533
原创 读论文《Sapiens: Foundation for Human Vision Models》
Sapiens 是由 Rawal Khirodkar 等人开发的一系列模型,旨在处理四个关键的以人为中心的视觉任务:2D 姿态估计、身体部位分割、深度预测和表面法线预测。这些任务对于理解图像中的人体和生成逼真的3D 人类模型至关重要。Sapiens 模型通过在大规模的野外人类图像数据集上进行自监督预训练,然后针对特定任务进行微调,以实现高性能。Sapiens 模型针对四项人工任务进行了微调 - 2D 姿势估计、身体部位分割、深度预测和法线预测。我们的模型适用于各种野外面部、上半身、全身和多人图像。
2024-09-11 17:48:16
981
原创 自称超越Transformer的新一代大模型RWKV是什么
自 Vaswani 等人于 2017 年首次提出 Attention Is All You Need 之后,基于 transformer 的强大的模型一直在不断地涌现,它们在 NLP 相关任务上的表现远远超过基于 RNN (Recurrent Neural Networks, 递归神经网络) 的 SoTA 模型,甚至多数认为 RNN 已死。而本文将介绍一个集 RNN 和 transformer 两者的优势于一身的全新网络架构 –RWKV!
2024-09-06 17:28:05
2293
1
原创 愿遗忘与你同在:使用 Noisy Labels 学习的替代重播
作者们指出,在现实世界的应用中,由于时间限制或数据自动收集等原因,标签噪声是一个常见问题,这使得现有的基于重放(Replay)的持续学习策略容易受到影响。: 提出了一种新的持续学习优化方案,通过交替进行缓冲区学习(buffer learning)和缓冲区遗忘(buffer forgetting)的步骤,来鼓励在缓冲区中分离干净样本和噪声样本。: 提出了一种新的样本选择策略,旨在优先选择当前任务的纯净样本,同时保留过去的相关样本。与现有的基于损失的净化策略相比,平均准确度提高了4.71%。
2024-08-27 17:29:01
1009
原创 读论文《SHOW-O》8.22发布的贼强的大模型多模态理解和生成解决方案
Show-o,它统一了多模态理解和生成。与完全自回归模型不同,Show-o 统一了自回归和(离散)扩散建模,以自适应地处理各种混合模态的输入和输出。统一模型灵活地支持广泛的视觉语言任务,包括视觉问答、文本到图像生成、文本引导修复/外推和混合模态生成。在各种基准测试中,它展示了与现有单个模型相当或更好的性能,这些模型具有等效或更多为理解或生成而定制的参数。这显著凸显了其作为下一代基础模型的潜力。听着很厉害,不同模态完全混合。
2024-08-27 15:40:24
2043
原创 读论文《Behavior Pattern Mining-based Multi-Behavior Recommendation》
BPMR算法通过挖掘用户和项目之间的多样化交互模式,并将这些模式作为特征用于推荐。采用贝叶斯方法简化推荐过程,有效避免了图神经网络算法中的过平滑问题。实验评估表明,BPMR在三个真实世界数据集上显著优于现有的最先进算法。
2024-08-23 17:57:13
1156
1
原创 读论文《Enhancing Cross-Modal Medical Image Segmentation through Compositionality》
跨模态医学图像分割是一个挑战,因为不同的成像方式会产生分辨率、对比度和解剖结构的不同表现。本文介绍了一种新的跨模态分割网络,该网络通过使用可学习的 von Mises-Fisher 核来强化学习到的表示的组合性。这些核有助于内容-风格解耦,得到的组合性内容表示在本质上是可解释的,并且有效地分离了不同的解剖结构。实验结果表明,在多个医学数据集上,与现有方法相比,所提出的方法在分割性能上有所提高,并且降低了计算成本。
2024-08-22 17:51:01
917
原创 读论文《FedGS: Federated Gradient Scaling for Heterogeneous Medical Image Segmentation》
深度学习 (DL) 中的联邦学习 (FL) 自动化医学图像分割功能可在不共享患者数据的情况下启用协作式模型训练,从而帮助保护隐私。然而,联邦学习面临着机构间数据异质性的挑战,导致全球模型次优。在联邦学习中集成分离表示学习 (DRL) 可以通过将数据分离为不同的表示来增强鲁棒性。现有的 DRL 方法假设异质性仅存在于风格特征中,而忽略了基于内容的变异性,如病变大小和形状。我们提出了 FedGS,一种新型的 FL 聚合方法,旨在提高对小型、代表性不足的目标的分割性能,同时保持整体功效。
2024-08-22 17:43:16
849
原创 读论文《 The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery》
人工智能科学家首先发明并评估一组想法的新颖性。这种方法标志着在机器学习科学发现方面的一个新时代的开始:将 AI 代理的变革性好处带给 AI 自身的整个研究过程,并使我们更接近一个世界,在这个世界上,无尽的可负担的创造力和创新可以被释放到世界上最具挑战性的问题上。这个审查代理处理 PDF 手稿的原始文本,并提供包括声音、呈现、贡献、总体和信心的数值分数,以及弱点和优势的列表,以及初步的二元决策(接受或拒绝)。每个阶段都使用了特定的提示和过程,以确保生成的想法是新颖的,实验是有效的,并且论文是准确和全面的。
2024-08-21 17:33:04
2010
原创 读论文《Temporal Graph Networks for Deep Learning on Dynamic Graphs》
作者提出了一种名为Temporal Graph Networks(TGNs)的新型深度学习框架,专门用于处理动态图数据。动态图是指图的结构或特征随时间变化的图,例如社交网络或生物互作网络。
2024-08-21 17:08:53
1573
原创 读论文《Contrastive Diffusion Model with Auxiliary Guidance for Coarse-to-Fine PET Reconstruction》
该论文提出了一种基于对比扩散模型(Contrastive Diffusion Model)并结合辅助引导(Auxiliary Guidance)的粗到细(Coarse-to-Fine)PET重建框架。这种框架包括一个粗预测模块(Coarse Prediction Module, CPM)和一个迭代细化模块(Iterative Refinement Module, IRM)。CPM通过确定性过程生成粗PET图像,而IRM则迭代地采样残差。通过将大部分计算开销委托给CPM,显著提高了整体采样速度。
2024-08-16 16:43:42
985
原创 读论文《Diffusion Probabilistic Priors for Zero-Shot Low-Dose CT Image Denoising》
零样本低剂量CT图像去噪的扩散概率先验这篇论文主要研究了一种新的无监督方法,用于降低剂量计算机断层扫描(Low-Dose CT, LD-CT)图像的噪声。这种方法不需要成对的低剂量和正常剂量CT图像进行训练,而是仅使用正常剂量CT图像进行训练,以实现对低剂量CT图像的零样本去噪。
2024-08-15 15:38:16
1024
原创 u2net 和u2netp 的具体区别
U2Net和U2NetP是两种基于深度学习的图像分割模型,它们都使用了编码器-解码器架构和跳跃连接来提高分割的精度。然而,它们在网络结构和参数配置上存在一些差异。这些差别反映了U2NetP是U2Net的一个轻量级版本,通过减少参数和简化网络结构来提高运行效率,可能以牺牲一些精度为代价。
2024-08-15 14:45:33
902
原创 读论文《ACN: Adversarial Co-training Network for Brain Tumor Segmentation with Missing Modalities》
论文题目;基于缺失模式的脑肿瘤分割的对抗性协同训练网络论文提出了一种新颖的对抗性协同训练网络(Adversarial Co-training Network, ACN),用于处理医学图像分割中缺失模态的问题。
2024-08-13 17:54:51
845
原创 读论文《PROTOTYPE KNOWLEDGE DISTILLATION FOR MEDICAL SEGMENTATION WITH MISSING MODALITY》
论文题目:缺失模态医学分割的原型知识蒸馏。
2024-08-13 17:46:33
1059
原创 读论文:《CTformer: Convolution-free Token2Token Dilated Vision Transformer for Low-dose CT Denoising》
低剂量计算机断层扫描(LDCT)去噪是CT研究中的一个重要问题。与正常剂量CT(NDCT)图像相比,LDCT图像在临床应用中会受到严重的噪声和伪影的影响。最近的许多研究表明,视觉变换器在特征表示能力上优于卷积神经网络(CNN)。然而,与CNN不同,视觉变换器在LDCT去噪方面的潜力至今尚未得到充分探索。为了填补这一空白,我们提出了一种无需卷积的Token2Token扩张视觉变换器(CTformer)用于低剂量CT去噪。CTformer使用更强大的Token重排来包含局部上下文信息,从而避免使用卷积。
2024-08-12 11:52:37
1296
5
原创 读论文《LIT-Former: Linking In-plane and Through-planeTransformers for Simultaneous CT ImageDenoising》
这篇论文研究了3D低剂量计算机断层扫描(CT)成像技术。尽管已经开发了多种深度学习方法,但它们通常专注于2D图像,并且分别对低剂量引起的噪声进行去噪和对超分辨率进行去模糊处理。到目前为止,很少有工作同时进行平面内去噪和平面外去模糊,这对于获得辐射更低、成像速度更快的高质量3D CT图像非常重要。对于这项任务,直接训练一个端到端的3D网络是一种直接的方法。然而,这需要更多的训练数据和昂贵的计算成本。
2024-08-09 17:53:24
765
3
原创 读论文《Variable Augmented Network for InvertibleModality Synthesis-Fusion》
可逆模态综合融合的变增广网络这篇论文提出了一种名为iVAN(invertible and variable augmented network)的方法,用于医学图像的合成和融合。
2024-07-29 11:21:47
1134
原创 读论文《Hi-Net: Hybrid-fusion Network for Multi-modalMR Image Synthesis》
磁共振成像(MRI)是一种广泛使用的神经成像技术,可以提供不同对比度(即模式)的图像。事实证明,融合这种多模态数据对于提高许多任务中的模型性能特别有效。然而,由于数据质量差和患者频繁退出,收集每个患者的所有模式仍然是一个挑战。医学图像合成是一种有效的解决方案,它从现有的图像中合成缺失的图像。在本文中,我们提出了一种用于多模态磁共振图像合成的新型混合融合网络(Hi-Net),它学习从多模态源图像(即现有模态)到目标图像(即缺失模态)的映射。
2024-07-23 11:53:32
1013
4
原创 ResViT 代码复现和讲解
论文题目:ResViT: Residual vision transformers for multi-modal medical image synthesis一种新的用于多模态医学图像合成的生成对抗方法。
2024-07-22 16:28:55
731
3
原创 读论文《ResViT: Residual vision transformers for multi-modal medical image synthesis》
具有卷积神经网络(CNN)主干的生成对抗模型最近在许多医学图像合成任务中被建立为最先进的模型。然而,cnn被设计为使用紧凑过滤器执行局部处理,这种归纳偏差损害了上下文特征的学习。在这里,我们提出了一种新的医学图像合成生成对抗方法,即ResViT,它利用了视觉的上下文敏感性以及卷积算子的精度和对抗学习的真实感。ResViT的生成器采用了一个由新型聚合残差变压器(ART)模块组成的中心瓶颈,该模块协同结合了残差卷积和变压器模块。ART块中的残差连接促进捕获表示的多样性,而信道压缩模块提取任务相关信息。
2024-07-22 16:15:28
1437
原创 Multi-scale Transformer Network with Edge-aware Pre-training for Cross-Modality MRImage Synthesis 代码
Multi-scale Transformer Network with Edge-aware Pre-training for Cross-Modality MRImage Synthesis 代码复现和讲解。
2024-07-19 16:45:15
849
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人