- 博客(77)
- 资源 (1)
- 收藏
- 关注
原创 pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction
我们研究 “generalizable novel view synthesis from sparse image observations” 的问题。可微分渲染给NVS领域带来了革命性的进展,但是也受限于它需要大的时间、内存,因为可微分渲染要计算每个相机射线上的数十个或数百个点。这启发了light-field transformers(SRT,Light field networks,Light field neural networks),它们通过将光线嵌入到query token中来渲染光线。
2024-01-01 12:49:57
4008
原创 GPS-Gaussian:Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis
尽管NeRF的加速技术取得了进步,但是基于NeRF的NVS方法普遍上仍然是time-consuming,因为他们需要在scene space中查询 dense points。另一方面,显式表示,特别是点云,由于其高速甚至实时的渲染性能而引起了持续的关注。一旦与神经网络集成,基于点的graphics与NeRF相比,实现了一种很有前途的显式表示,具有相当的真实性和极高的效率。再到最近,3DGS实现了实时和高质量的渲染。
2023-12-22 21:23:27
2139
原创 《HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting》
为了引入人体结构先验,最近的文本驱动 3D 人体生成研究将 SDS 与 SMPL 等模型结合起来。具体来说,一个常见的做法是将人体先验集成到网格(mesh)和神经辐射场(NeRF)等表示中,或者通过将身体形状作为网格 / 神经辐射场密度初始化,或者通过学习基于线性混合蒙皮(Linear Blend Skinning)的形变场。然而,它们大多在效率和质量之间进行权衡:基于 mesh 的方法很难对配饰和褶皱等精细拓扑进行建模;而基于 NeRF 的方法渲染高分辨率结果对时间和显存的开销非常大。如何高效地实现细粒度
2023-12-13 20:30:08
1850
原创 《DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation》
在3D content creation方面的最新进展大多利用通过SDS进行的基于优化3D生成。虽然已经显示出了有希望的结果,但这些方法的per-sample optimization往往比较缓慢,限制了它们的实际应用。在这篇文章中,我们提出了DreamGaussian,同时实现efficiency和quality。我们的key insight是设计一个生成的三维高斯溅模型,在UV空间中进行友好的网格提取和纹理细化。与NeRF使用的occupancy pruning优化过程相反,我们证明了在三维生成任务中,
2023-12-13 11:53:11
1805
原创 【ECCV 2022】《Transformers as Meta-learners for Implicit Neural Representations》
与像素、体素和网格等离散数据表示相比,INRs不需要依赖于分辨率的二次或三次存储。它们的表示能力并不依赖于网格分辨率,而是依赖于神经网络的能力,神经网络可以捕获底层数据结构并减少表示的冗余,因此提供了一个紧凑(compact)而强大的连续(continuous)数据表示。
2023-11-30 13:51:15
1070
原创 【NeuIPS 2023】《Operator Learning with Neural Fields: Tackling PDEs on General Geometries》
第二个工作旨用已知的偏微分方程来告知INRs,类似于PINN,而本文的方法完全是由数据驱动的,没有物理先验。但是,它们仍然有design rigidity,在训练和推理过程中依赖于固定的网格,这限制了他们在现实应用中的使用,比如irregular sampling grids和new geometries。GNN通常在一个小半径内选择最近的邻居,这可能会引入对训练过程中看到的网格类型的偏差(就是说,GNN这种方式其实引入了网络类型的局部拓扑结构的归纳偏置,所以在测试时会受这种归纳偏置的影响)。
2023-11-26 22:59:25
1172
原创 【NeuIPS 2021】《Meta-learning sparse implicit neural representations》
目前的INRs方法很难被扩展到用于大量的信号或数据集(也就是无法泛化?),因为每个INR的参数都很heavy,且需要很大的内存和计算。为此,这篇文章提出使用元学习的方法,结合稀疏约束下的网络压缩,这样它呈现一个初始化良好的稀疏参数化,在随后的训练中可以快速演化为一组未见过的信号。这篇文章证明,当使用相同数量的优化步骤进行训练以适合每个信号时,meta-learned sparse neural representations比具有相同数量参数的dense meta-learned models获得的损失要小
2023-11-22 16:45:59
241
原创 基于Adapter用CLIP进行Few-shot Image Classification
CLIP-Adapter、Tip-Adapter、Meta-Adapter文章阅读笔记
2023-11-18 22:44:51
1654
原创 【NeuIPS‘2023】《Hypernetwork-based Meta-Learning for Low-Rank Physics-Informed Neural Networks》
PINNs与coordinate-based MLPs(或者叫INRs)一样,有着同样的弱点。对于一个新的data instance(a new PDE for PINNs 或 a new image for INRs),需要重新训练一个神经网络。了解决上述的问题,这篇文章提出了:1)一种PINNs的low-rank结构的神经网络架构,叫做 low-rank PINNs (LR-PINNs);2)一种有效的rank-revealing训练算法,它自适应地调整LR-PINNs的秩以适应不同的PDE输入;
2023-11-13 21:26:55
394
原创 用于3D Visual Grounding的多模态场景图
语言图中的每个节点和边,对应于文本描述L中提到的object和它在L中被提到的与其他object的关系。
2023-11-05 21:54:02
521
原创 Instant-NGP论文笔记
另外,在创建数据集时,会计算一个bounding-box,这是为了计算grid用的(https://github.com/yashbhalgat/HashNeRF-pytorch中的get_bboxed_from_blenderobj()函数可以计算)。instant-ngp的nerf模型包含两个MLP,第一个MLP就两个全连接,输入维度是32(16层分辨率x2),输出是16(用于预测密度)。第二个MLP有三个全连接,输入如下(16+16),输出是3(rgb)。
2023-11-05 21:53:12
825
原创 【Nature】Human-like systematic generalization through a meta-learning neural network
通过元学习来实现Human-like的系统泛化
2023-11-02 22:06:07
1774
1
原创 【ICCV‘23】One-shot Implicit Animatable Avatars with Model-based Priors
现有的方法要想从sparse-views 输入中重建human avatar,要么需要dense input signals(视频或多视图),要么从大规模特定的3D human数据集中学习先验。他们的大多数都不能从单视图中重建human avatar。为了实现data-efficient的human avatar制作,这篇文章提出了ELICIT。
2023-10-31 16:09:14
280
原创 图像超分辨率&超分辨率NeRF论文阅读
Code:xxx。如下图所示 xxx。Code: Nonexxx。如下图所示 xxx。Code:xxx。如下图所示 xxx。Code:Code:xxx。如下图所示 xxx。Code:Code:Code:
2023-10-21 16:13:36
631
原创 NeRF-Diffusion系列文章阅读
(外貌,纹理)。最后渲染出的图像不仅用GT来监督,还用CLIP loss来监督。在预训练扩散模型火爆之后,这一系列的工作逐渐开始使用预训练扩散模型(Imagen/Stable-diffusion)作为guidance,最初的文章是DreamFusion,它提出了SDS损失,后续的工作都是基于SDS来做的。这里对SDS(Score Distillation Sampling)做一个回顾。
2023-06-08 16:05:33
2657
原创 域泛化(Domain Generalization)相关知识学习
领域泛化的目标是从一个或几个不同但相关的领域(训练集)学习一个模型,在unseen的测试领域上得到很好的泛化。(在DG的定义中,“different but related” 是重点,就是说domains虽然不同,但是一定得相关,每个domain包含的类别其实是相同的。)
2023-05-25 10:44:22
16086
3
原创 NeRF-VAE:将场景看作一个分布【ICML‘2021】
论文标题:Neural scene representation and rendering作者:S. M. Ali Eslami, Danilo Jimenez Rezende, et al.期刊:Science发表时间:2018/06/15该文章提出了生成查询网络(Generative Query Network,GQN)。要解决的问题是从不同角度输入一个场景的图像,构建出内在表征,并使用这种表征预测场景中未观察到的部分。
2023-05-24 21:48:43
1142
原创 在三维场景中构造关系
但是在Scan2Cap以及相关的工作中,对inter-object关系的构造,是一个神经网络来学习两个object之间的关系(输入是两个object feature的拼接,输出的这两个之间的边),这种方式是比较隐式的,没有对这些复杂的关系进行直接的编码,所以导致了sub-optimal results。对于3DDC和3DVG(3D Visual Grounding)任务而言,探索目标间的关系都是很重要的,因为这是理解3D scene的重要环节,理解了3D scene才能更好的完成这两个任务。
2023-05-20 20:13:21
197
原创 Meta-learning综述
本文首先回顾了监督、无监督、弱监督学习方法的联系和区别,并进一步回顾了域偏移、域适应、域泛化和迁移学习的定义,以及详细介绍了小样本学习(Few-shot Learning),最后全面了解元学习,并比较了它与传统机器学习的相同与区别。
2023-05-12 20:16:23
1572
3
原创 MAE论文阅读《Masked Autoencoders Are Scalable Vision Learners》
MAE采用了MIM的思想,随机mask掉部分patchs然后进行重建,并有两个核心的设计: 1)设计了一个非对称的encoder-decoder结构,这个非对称体现在两方面:一方面decoder采用比encoder更轻量级设计,encoder首先使用linear将patch映射为embedding,然后采用的是ViT模型,decoder是一个包含几个transformer blocks轻量级模块,最后一层是一个linear层采用的是一个;另外一方面encoder只处理visible patchs,而deco
2023-04-12 12:44:50
624
1
原创 《Relational Attention: Generalizing Transformers for Graph-Structured Tasks》【ICLR2023-spotlight】
这样做了以后,就实现了最初的设计理念,即:保留了Transformer的架构,引入entities之间的relative relation,并condition Transformer on these relations,还保存了Transformer的。attentional GNNs只计算边向量上的attention,也就是说它们是受邻接矩阵的约束的,并且每一层中,边向量是不更新的。是一个identity 函数,相当于什么操作没有,也就是说下个阶段的边向量等于当前的边向量,也就是不对边做更新。
2023-04-10 20:24:55
1084
原创 Language Conditioned Spatial Relation Reasoning for 3D Object Grounding【NeurIPS 2022】
Language Conditioned Spatial Relation Reasoning for 3D Object Grounding【NeurIPS 2022】
2023-04-10 15:01:02
555
原创 NeurIPS2020《Object-Centric Learning with Slot Attention》&RNN、LSTM、GRU
Slot Attention要做的事是:从 CNN 的 feature map 中聚类/抽象出 set of slots。对slot的理解是"each slot can store (and bind to) any object in the input"。
2023-04-08 22:45:19
2649
原创 Language Conditioned Spatial Relation Reasoning for 3D Object Grounding【NeurIPS 2022】
为了在现实世界中执行人类指令,机器人应该理解自然语言,并能够在3D环境中ground上述物体。语言表达通常是描述物体在3D场景中的relative spatial relations来指定物体的。比如上图中的这两个例子,就要消除同一类目标中的歧义目标。鉴于 spatial language 的重要性,许多方法长时间莫3DVG中的空间关系。早期大家使用GNN来建模关系,但是他们只能捕捉最近邻的关系。近年来,Transformer架构被广泛采用,因为它可以直接建模 pair object之间的关系。然而,使
2023-04-06 23:43:08
147
原创 Image as set points【ICLR 2023 notable top 5%】
目前两种主流的从图像中提取特征的范式:ConvNets,ViTs。ConvNets 将图像概念化为一组排列成矩形形式的像素,并以滑动窗口的方式使用卷积提取局部特征。卷积网络非常高效的原因是得益于一些重要的归纳偏置 (inductive bias),如局部性 (locality) 和平移等变性 (translation equivariance)。 视觉 Transformer 将图像视为一块块组成的序列,并使用全局注意力操作自适应地融合来自每个 Patch 的信息。这丢弃了CNN中的归纳偏置,所以在大量的数
2023-04-04 16:29:26
654
原创 LERF: Language Embedded Radiance Fields
人类使用自然语言来描述物理世界,并基于广泛的属性来指代特定的三维位置:视觉外观、语义、抽象联想或可操作的启示。在这项工作中,我们提出了Language Embedded Radiance Fields(LERF),这是一种将Language embedding嵌入到NeRF的方法。LERF在NeRF中学习了一个dense、多尺度的language field,通过沿着训练射线进行体素渲染CLIP embedding,跨训练视图监督这些embedding,以提供多视图的一致性和平滑language field
2023-03-23 22:06:51
625
原创 DALL·E 2 论文阅读笔记
DALL-E 2 论文阅读笔记。图像生成、AE、VAE、VQ-VAE、DALL-E、Diffusion model
2023-03-11 19:57:09
6550
4
原创 从AE(Auto-encoder)到VAE(Variational Auto-Encoder)
自动编码器(Auto-Encoder)和变分自动编码器(Variational Auto-Encoder)学习笔记
2023-03-02 16:13:17
2205
[精品]HyperMesh与Abaqus接口培训教材.pdf
2019-08-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人