- 博客(82)
- 收藏
- 关注
原创 3D 生成重建040-借助LRM对mesh进行编辑
与现有的需要形状的完整表示来进行修改的方法不同,该方法只需要编辑区域的几个视图。为了实现这一目标,论文使用了一个以图像为条件的大型重建模型 (LRM),该模型经过专门设计,可以根据部分视图对被遮挡区域进行合理的推断。通过在训练 LRM 过程中对输入图像进行随机掩码,迫使模型学习如何根据可见的部分信息推断被遮挡区域的形状,从而实现从单个或少量视图重建完整 3D 模型的能力。与传统方法需要完整的 3D 形状表示不同,该方法仅需编辑区域的几个视图即可完成编辑,大大简化了操作流程并降低了使用门槛。
2024-12-16 15:49:46
414
原创 AIGC 015-AniTalker通过身份解耦生成面部动作
*AniTalker 在语音驱动的说话人脸生成方面显著优于现有最先进的方法,能够生成具有身份一致性、丰富表情和自然过渡的生动视频。现有的许多talking-face生成模型都**专注于精确的唇形同步,但往往忽略了面部表情的细微差别,从而导致生成结果缺乏活力和多样性。AniTalker 的通用运动表征是通过自监督度量学习得到的,无需人工标注数据,这大大降低了数据获取和标注的成本。AniTalker 的核心思想是将身份信息和面部动作解耦,从而实现更生动和多样化的说话人脸视频生成。
2024-12-16 12:51:16
636
原创 AIGC 014-ConsisID通过频率解耦将角色信息注入到文生视频模型
例如身份,而高**频特征则影响局部细节,例如表情。**ConsisiD 通过一个基于控制信号的交叉频率融合模块,从参考图像中提取低频全局身份特征和高频局部面部特征,并将它们融入到不同频率域的扩散过程中。ConsiosiD 利用这一发现,将参考图像的特征分解成低频和高频成分,分别用于控制扩散过程的不同阶段,从而实现对身份和细节的精准控制。为了增强生成视频的身份一致性,论文提出了一种新的训练策略,优先关注低频全局特征,并逐步加入高频细节,从而避免模型过度关注局部细节而丢失全局身份信息。
2024-12-15 21:33:14
511
原创 3D 生成重建039-Edify 3D:Nvidia的3D生成大模型
文档介绍了Edify 3D,一种为高质量的3D资产生成而设计的高级解决方案。方法可以生成高质量的三维资产里,干净的形状拓扑,高分辨率的纹理,和材料在2分钟内运行。没有直接去合成三维,而是更CRM类的方法一样用**一个扩散模型生成三平面再转3d。**文章应该也考虑这个问题了,在三平面生成的基础上又加了一个基于超分的细节补充通道。用合成的多视图RGB和表面法线图像,一个重建模型预测了三维形状的几何形状、纹理和材料。Edify 3D还可以从对象的参考图像中创建一个3D资产,自动识别图像中的前景对象。
2024-12-14 22:10:56
1026
原创 3D 生成重建038-DiffGS训练一个3DGS编码器来简化训练
它通过将离散的、非结构化的 3D Gaussian splatting 表示为连续的函数,并利用扩散模型和变分自编码器来学习和生成这些函数,从而解决了现有方法在生成高质量 3D Gaussian splatting 模型时遇到的挑战。这个工作的思路实际可以拿pixel空间的扩散模型跟隐空间的SD做类比,通过一个特定的编码器不光能将3dgs数据压缩到特定的隐空间变成连续性特征,然后还能简化计算量。的3Dgs直接生成是不那么方便的,有些工作是生成三平面再合成3dGS,中间都转了一步,这就有一个范化性问题。
2024-12-14 21:28:33
1104
原创 3D 生成重建037-GAUSSIANANYTHING通过点云与外观的混合策略进行3dgs生成
虽然现有的三维内容生成方法取得了显著进展,但它们在生成高质量、易编辑且可控的三维模型方面仍然面临着挑战。的三维生成,以及对生成结果的交互式编辑。(3D VAE): 使用级联式的 3D VAE 结构来学习三维数据的潜在表示,这使得模型能够更好地捕捉三维形状的复杂特征。: 采用高斯混合模型来表示三维点云,这种表示方法比传统的点云表示方法更紧凑、更有效,并且易于进行渲染和编辑。利用三维扩散模型来生成高质量的三维点云,扩散模型的强大生成能力能够生成更精细、更逼真的三维模型。,并通过扩散模型生成高质量的三维点云。
2024-12-13 13:22:04
881
原创 3D 生成重建036-HyperDiffusion直接生成nerf几何
HyperDiffusion 旨在解决现有隐式神经辐射场表示方法(例如,使用多层感知机MLP表示)需要对模型参数进行逐个优化,导致生成速度慢且效率低下的问题。跟这个论文差别大吗?不大,整体的优化策略不一样,hyperdiffusion实际上只有3d级别的监督,diffrf是2d+3d。无需迭代优化: HyperDiffusion 直接从噪声中生成神经网络的权重参数,无需任何耗时的迭代优化过程。通过这种方式,HyperDiffusion能够直接从噪声中生成高质量的三维模型,无需任何耗时的优化步骤。
2024-12-13 11:42:08
725
原创 3D 生成重建035-DiffRF直接生成nerf
具体来说,DiffRF首先通过一个预训练的扩散模型生成辐射场的初始表示,然后利用渲染图像作为监督信息,通过迭代的扩散过程对辐射场进行细化,最终生成高质量的三维辐射场。它将渲染图像作为扩散过程的指导信息,利用渲染图像与目标图像之间的差异来驱动扩散过程,从而有效地控制生成过程,减少噪声,并提高生成质量。它利用渲染图像作为扩散过程的指导,通过迭代细化辐射场表示来生成高质量的三维模型。DiffRF 利用预训练的扩散模型生成辐射场的初始表示,为后续的扩散过程提供了一个良好的起点,提高了生成效率和稳定性。
2024-12-13 11:22:56
810
原创 3D 生成重建034-NerfDiff借助扩散模型直接生成nerf
NeRF 引导的三维扩散细化: 然后,利用一个新颖的 NeRF 引导的三维扩散框架,对初始 NeRF 进行细化。这个框架通过将 CDM 的输出与 NeRF 的渲染结果进行比较,迭代地更新 NeRF 参数,从而生成更精确、更细节丰富的三维场景。NerfDiff 引入了一种新颖的几何约束NeRF(Geo-constrained NeRF),该方法利用三维扩散模型的输出引导NeRF参数的更新,从而有效地解决三维扩散模型中几何形状不一致的问题。NerfDiff 巧妙地结合了。本文提出了一种新颖的单。
2024-12-13 11:08:00
593
原创 AIGC 013-CoT用思维链挖掘自回归语言模型的潜在能力
特别是,展示了这种推理能力如何通过一种简单的方法,称为思维链提示,在足够大的语言模型中自然地涌现,其中一些思维链演示作为提示中的示例提供。: 作者在三个大型语言模型(包括PaLM)上,对算术、常识和符号推理等多种任务进行了实验,结果表明,链式思考提示方法在这些任务上都能显著提升模型的性能,尤其是那些需要多步骤推理的复杂任务。,旨在提升大型语言模型在复杂推理任务中的表现。该方法的核心思想是,在给语言模型提供少量的示例时,不仅展示输入和输出,还加入中间的推理步骤(即思维链),让模型学习如何分解问题并逐步推理。
2024-12-13 10:24:09
956
原创 3D 生成重建033-对3D-head进行风格化编辑
虽然三维感知生成器取得了显著进展,但许多三维风格化方法主要提供近正面视图,并且难以保留原始人物的独特身份特征,常常导致输出缺乏多样性和个性。论文提出的多视图分数蒸馏方法将扩散模型的风格化能力迁移到GAN模型中,从而实现了在保证图像质量的同时,提升图像多样性和身份保持能力。尝试推动了三维头部风格化的发展,也为扩散模型和GAN之间的有效蒸馏过程提供了宝贵的见解,重点关注身份特征的保持问题。PanoHead模型能够生成360度视角的图像,为实现高质量的三维风格化提供了良好的基础。分数等级加权技术和镜像梯度技术。
2024-12-12 13:20:47
1010
原创 3D 生成重建032-Find3D去找到它身上的每一份碎片吧
基于Transformer的点云模型和对比学习: 使用基于Transformer的架构处理点云数据,能够有效地捕捉点与点之间的长程依赖关系。同时,采用对比学习方法,有效地解决了部件层次结构和歧义问题,提高了模型的鲁棒性和准确性。实际上这个当法的策略跟我们前面提到的将SAM知识蒸馏到3D空间的工作相近,主要体现在目标上的不同。自动数据标注: FIND3D的数据引擎实现了对三维数据的自动标注,避免了耗时的人工标注过程,极大地降低了数据获取成本,并使得训练大规模模型成为可能。
2024-12-11 20:09:15
506
原创 3D 生成重建020-Gaussian Grouping在场景中分割并编辑一切
3D 生成重建020-Gaussian Grouping在场景中分割并编辑一切。
2024-12-07 12:04:28
626
原创 3D 生成重建017-StyleGaussian用文本或图像对你的3DGS内容进行风格迁移
3D 生成重建017-StyleGaussian用文本或图像对你的3DGS内容进行风格迁移。
2024-12-06 14:52:00
1265
原创 3D 生成重建016-SA3D从nerf中分割一切
在 SA3D (Segment Anything in 3D) 方法中,自我提示(Self-Prompting) 是一种关键的技术,用来通过多视角的迭代过程生成三维掩膜。具体来说,自我提示的实现过程可以分为以下几个步骤:初始二维掩膜生成:1、给定一个视角中的目标物体,用户提供一个手动的粗略分割提示(例如一些粗略的点或框)。使用 SAM(Segment Anything Model)对这个视角中的物体进行分割,生成一个二维掩膜(mask)。2、掩膜反向渲染。
2024-12-06 14:21:11
1127
原创 3D 生成重建015-Feature 3DGS理解3DGS场景内的一切
下图是论文的结构图,xqscαfxqscαf,q, s表示的是四元组表示的旋转平移,f是语义特征。语义的渲染方式跟图像的渲染方式一样。只不过如果直接渲染高位的SAM或者CLIP特征的话,维度会很高,这就会造成基础管线并不支持 这样的操作。为了简化问题,语义特征先优化一个低维的语义特征,然后进行升维。升维的信息用2d的基础模型进行监督。通过训练优化后语义信息就潜入到f中。也许我们可以找到新的方式来优化这个特征的潜入方式。i think.
2024-12-06 12:12:51
2019
原创 AIGC 012-Video LDM-更进一步,SD作者将LDM扩展到视频生成任务!
AIGC 012-Video LDM-Stable Video diffusion前身,将LDM扩展到视频生成任务!
2024-12-05 11:43:28
810
原创 3D 生成重建015-nerf2mesh从神经辐射场中提取mesh和纹理!
3D 生成重建015-nerf2mesh从神经辐射场中提取mesh和纹理!
2024-05-27 22:17:50
1493
原创 AIGC 008-IP-Adapter文本兼容图像提示适配器用于文本到图像扩散模型
AIGC 008-IP-Adapter文本兼容图像提示适配器用于文本到图像扩散模型!
2024-05-27 22:02:17
826
原创 AIGC 007-E4T基于编码器的域调优用于文本到图像模型的快速个性化!
AIGC 007-E4T基于编码器的域调优用于文本到图像模型的快速个性化!
2024-05-27 21:42:24
975
原创 AIGC 006-textual-inversion使用文本反转实现个性化文本到图像生成!
AIGC 005-textual-inversion使用文本反转实现个性化文本到图像生成!
2024-05-26 18:42:30
1091
原创 AIGC 005-Dreambooth定制化生成,微调文本到图像的扩散模型!
AIGC 005-Dreambooth定制化生成,微调文本到图像的扩散模型!
2024-05-26 17:45:46
806
原创 AIGC 004-T2I-adapter另外一种支持多条件组合控制的文生图方案!
AIGC 004-T2I-adapter另外一种支持多条件组合控制的文生图方案!
2024-05-26 16:54:22
972
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人