
论文阅读
文章平均质量分 61
深蓝蓝蓝蓝蓝
CS博士在读,专注动态3D重建,欢迎交流www
展开
-
[SIGGRAPH2023-best]3D Gaussian Splatting for Real-Time Radiance Field Rendering
本文提出了一种基于3D高斯体进行场景重建的方案,并提供了高效的渲染器实现。其重建精度,训练速度和推理速度均超越之前的SOTA方案。整体的思路就是先使用传统方案(COLMAP)将多视角图像对齐,并提取稀疏点云。然后以这些点为基础构建高斯体,在训练中动态的增减高斯体的数量和半径。之后对高斯体进行渲染,获得最终的重建结果。原创 2023-11-15 11:45:23 · 1708 阅读 · 1 评论 -
[ECCV2022]Language-Driven Artistic Style Transfer
标题:Language-Driven Artistic Style Transfer如标题所示,本文做的是基于文本引导的风格迁移。整体的思路还是用的AST(arbitrary style transfer)那一套自编码器结构。AST的思路就是通过将原图和目标图都经过一个encoder,得到原图的风格和语义特征以及目标图的风格和语义特征而这篇文章唯一的不同就是目标图自带一套文本描述,因此可以抽取文本的特征,然后将之视作风格特征与原图语义融合,最后通过解码器生成符合文本语义的结果即可。原创 2022-11-30 08:59:27 · 1218 阅读 · 1 评论 -
[CVPR2021]LASR: Learning Articulated Shape Reconstruction from a Monocular Video
本文做的是基于视频的3D重建。特色之处在于不需要初始模板,而是直接从一个球形来拟合最终形状。原创 2022-09-08 16:53:40 · 884 阅读 · 2 评论 -
[CVPR2018](SMALR)Lions and tigers and bears: Capturing non-rigid, 3d, articulated shape from images
本文是基于SMAL的改进,主要是增加了对个体的形状优化和纹理的贴合。原创 2022-09-08 12:09:39 · 418 阅读 · 0 评论 -
[CVPR2017](SMAL)3D Menagerie: Modeling the 3D Shape and Pose of Animals
本文是一篇很经典的3D动物重建的文章。本文以四足动物的玩具模型为样本,为四足动物建立了铰接式3D模板,并提出了基于单图的模板拟合方案。原创 2022-09-08 09:41:56 · 889 阅读 · 1 评论 -
[ECCV2020]3D Bird Reconstruction: a Dataset, Model, and Shape Recovery from a Single View
本文首先是提供了一个可以用于分析鸟类行为学的数据集,然后为鸟类设计了一套精细的3D参数化模型,最后提出了一套算法来将3D模型拟合到单视角鸟类图像。原创 2022-08-31 17:02:35 · 336 阅读 · 0 评论 -
[CVPR2021]Birds of a Feather: Capturing Avian Shape Models from Images
本文做的是基于单视角图片的3D动物重建。和大多数人脸重建模型一样,都默认提供了一个3D模板,然后只要基于模板拟合输入的图像就可以了。但不同于人脸,动物在体型上的变化比人脸要大得多(比如本文中处理的鸟类),因此这里作者提出了一个三阶段方案来进行三维重建。......原创 2022-08-30 20:32:10 · 756 阅读 · 0 评论 -
[NIPS2018]Visual Object Networks: Image Generation with Disentangled 3D Representation
本文目的是进行无监督的3D形状与纹理生成。主要思路就是直接用3D-GAN给出对应类的形状,然后使用2D图像预测纹理,并通过2.5D sketches作为中介与3D模型进行渲染,最后将渲染结果丢到判别器中构建gan loss来提升整体效果。主要的局限性在于输入的图像要求没有背景。...原创 2022-08-25 20:41:29 · 324 阅读 · 0 评论 -
[NIPS2016]Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial
本文是有史以来第一个可以通过无监督训练得到全新3D模型的算法,在此之前的模型大都是通过拼凑已有模型的部分结构来构建新3D模型。而这篇文章最大的创新就是借助了GAN的思想来将3D模型的分布嵌入到隐空间中,从而使得模型可以从任意随机向量中解码出对应的3D模型。...原创 2022-08-25 19:01:48 · 356 阅读 · 0 评论 -
[TOG2022]DCT-Net: Domain-Calibrated Translation for Portrait Stylization
标题:DCT-Net: Domain-Calibrated Translation for Portrait Stylization本文做的是基于人脸的风格迁移,效果非常惊艳。特点就是在迁移了局部纹理和整体颜色的基础上,进一步融入了对应风格的细节表达。模型最有意思的点就是域之间的对齐,这为少样本的图像迁移提供了一个思路。原创 2022-08-25 11:00:27 · 1704 阅读 · 0 评论 -
[CVPR2020]Learning to Cartoonize Using White-box Cartoon Representations
标题:Learning to Cartoonize Using White-box Cartoon Representations本文的目的是将任意图片迁移到卡通风格。作者通过专业知识将卡通风格解耦为不同的指标,并分别约束这几个指标,从而使得网络生成的卡通效果可控,因此称之为“白盒”(对比其他的风格迁移方法大都是端到端的黑盒结构,内部基本不可控)。原创 2022-08-25 08:40:33 · 620 阅读 · 0 评论 -
[CVPR2022]3D Photo Stylization: Learning to Generate Stylized Novel Views from a Single Image
本文做的是基于单图的新视角合成中的风格迁移。之前的工作在做新视角合成的风格迁移时需要多视角图片,而本文只需要一张图。主要思路是先提取2D图片的深度,然后进行深度图补全以恢复所有视角中的深度信息。之后将深度转化为点云再提取点云特征,并迁移到目标图的风格上去。本文的创新点有两个,一个是提出了一个GCN用来提取大规模的点云特征,另一个是提出了一个基于点的多视角一致性损失。模型结构可以看到,这里模型分为了三个大步骤,构建点云,基于点云的风格迁移,渲染。构建点云模型中输入的就是一张2D图,作者先使用L原创 2022-04-14 13:57:39 · 3723 阅读 · 0 评论 -
[ICCV2021]Learning to Stylize Novel Views
本文做的是基于新视角生成的风格转换。其中的一大难点是如何保证转换风格后不同视角之间的3D统一性。整体模型是基于点云的,作者先将输入的一系列图像转换成点云,然后将点云按照目标风格图像的特征进行转换,最后基于转换后的点云进行渲染,从而得到新视角生成的风格转换图。模型结构模型流程如上图所示,主要分为三个步骤:提取点云,点云转换,新视角生成。提取点云这里作者使用了SFM算法提取了输入图像的深度,这样就可以将图像中的点一一对应到空间中了。然后使用VGG-19抽取了基于每个像素的特征,放置于点云里每原创 2022-04-14 12:28:37 · 3407 阅读 · 0 评论 -
[ICCV2021]3DStyleNet: Creating 3D Shapes with Geometric and Texture Style Variations
本文做的是基于3D物体的风格迁移。与之前模型不同的是,他可以同时迁移纹理和几何形状。由于样本不足,本文是将纹理和几何形状的风格迁移单独训练的。几何部分所谓的逻辑就是每个语义分割部位的相对大小,而纹理的风格迁移就遵循了之前工作中的定义。模型结构整体网络分为三个部分,纹理迁移,几何迁移和最后的3D空间中的优化阶段。几何迁移这里作者认为几何上风格的不同主要取决于局部的大小,比如动漫里通常头部比较大,而真实场景中头部偏小。因此作者将输入的3D模型分解成固定个数的语意块,并将每个语意块映射到一个椭原创 2022-04-14 10:55:55 · 1085 阅读 · 0 评论 -
[ECCV2020]Self-supervised Single-view 3D Reconstruction via Semantic Consistency
本文做的是基于单图的无监督3D物体重建。文中模型不需要配对的2D图像与3D扫描结果,不需要landmark,不需要多视角图像,也不需要参数化模型,更不需要手工定义的模板,完全从零开始重建一个3D物体。只有一个约束,就是输入的所有图片需要是同一类物体(比如全是车,全是鸟,或者全是马等等)。本文主要的思想是将同一类物体通过语义分割建立联系,通过3D模板(初始模板就是一个球)与语义分割模型相互之间的促进来迭代式的增强模型的重建能力。...原创 2022-04-14 10:07:23 · 903 阅读 · 0 评论 -
[ECCV2022]3D face reconstruction with dense landmarks
本文做的是基于单图的3D人脸重建。与之前方式不同的是,本文只使用了提取的密集landmark作为模型约束,甚至没有用基于图像的渲染重建损失,但效果却达到了SOTA。本文为后续的工作提供了一个非常好的思路,那就是直接使用基于计算机图形学生成的人脸进行训练。这样的好处是我们拥有绝对准确的ground truth,比如文中使用的landmark,而这是我们在真实数据库上无法达到的(比如被遮挡部分的landmark,即使非常用心,人工也难以准确标注)。且由于现阶段计算机图形学生成的结果的真实性和细腻度都要远远高于计原创 2022-04-12 23:44:54 · 6894 阅读 · 3 评论 -
[CVPR2022]ImFace: A Nonlinear 3D Morphable Face Model with Implicit Neural Representations
本文的主要目的是为3D人脸模型创建一套基于SDF的非线性隐式表示,这有助于帮我们摆脱线性3DMM的局限性(比如网格密度有限导致不够精细,又比如线性表达无法囊括一些比较特殊的人脸及表情)。和别的隐式表示一样,输入模型的只有一个点,输出的是对应的SDF值,整个模型就可以想象成一个表示人脸的场,我们输入一个点就给我们一点信息,当输入点足够多的时候自然就能获得最终的3D重建结果了。而如何解析我们输入的这个点便是模型的重中之重,本文便将这个流程分为了三个部分:表情形变,身份形变和模板空间。通过对表情和身份的解耦来增强原创 2022-04-12 16:11:56 · 1482 阅读 · 1 评论 -
[CVPR2022]Sparse to Dense Dynamic 3D Facial Expression Generation
本文主要做的是基于人脸网格的表情动画合成。思路是先用一个conditional GAN来学习基于landmark的动画序列,然后将landmark序列输入解码器还原为稠密的人脸网格动画。作者做这篇文章的灵感是来源于“每个人在做表情时的肌肉运动是一致的”,因此作者试图学习出一套通用的运动模板,然后套用到每个个体身上,进而让每个人在面部特征不变的情况下产生表情动画。特色主要在于对landmark的动画序列使用了基于SRVF的轨迹表示(这个其实是借鉴MotionGAN的,这里作者只是把他从2D改成了3D),和原创 2022-04-11 11:31:58 · 1320 阅读 · 4 评论 -
[CVPR2022]FENeRF: Face Editing in Neural Radiance Fields
本文做的是迭代式的3D人脸重建。文章整体结构基于pi-GAN,通过分支结构让NeRF预测每个像素的语意,密度和纹理,从而构建出密集3D对齐的语意图,纹理图和密度图。进而可以通过逆映射(inversion)来编辑人脸(旋转,风格,局部变换)。模型结构虽然看着大不一样,但文中基础模块都是照搬的pi-GAN:使用基于siren的网络做NeRF空间,然后使用单独的mapping网络来将纹理和形状隐码转换到适合网络的空间后输入网络。其中形状隐码直接输入整个网络而纹理隐码只输入颜色分支。其中有一点不同的原创 2022-04-11 00:21:42 · 2732 阅读 · 1 评论 -
[CVPR2022-oral]I M Avatar: Implicit Morphable Head Avatars from Videos
简介这篇文章做的是基于视频的迭代式3D人脸重建。文中结合了3DMM和隐式建模的思想,使得最终得到的3D人脸模型不仅非常真实,而且可以按照3DMM的方式进行编辑,最终生成的模型中可以看到完整的人头(包含口腔,牙齿,头发)。模型结构分为三个部分,每个部分都各用了一个占用场(occupancy field,和radiance field很像,文末会解释他们的区别),第一个部分用于将输入人脸变形到基准脸,第二个部分用于从基准脸中提取对应的几何信息,第三个部分用于提取对应的纹理信息。模型结构以下按照图原创 2022-04-09 14:35:26 · 3293 阅读 · 3 评论 -
[CVPR2022]Disentangled3D: Learning a 3D Generative Model with Disentangled Geometry and Appearance
本文也是基于NeRF的一个衍生,可以看做GRAF的进阶版。主要做的工作是基于单图的3D重建,并在重建过程中将外观(光照和纹理的结合)与几何信息解耦,另外每个模型只能处理同一类物体,无法同时处理多个不同类物体。主要的思路是强行要求所有输入图像通过形变网络对应到同一个基准形状(比如平均脸),并共用同一套NeRF网络学习并进行渲染,从而解耦形状和外观。结构主要包含四个部分:1. 从形变空间(deformed space)到基准空间(canonical space)的转换。这里就是说我直接在形变空间中发原创 2022-04-07 23:52:29 · 2250 阅读 · 0 评论 -
[CVPR2021]pixelNeRF: Neural Radiance Fields from One or Few Images
本文是针对NeRF的优化,NeRF中往往需要同一个场景中非常多的图片才能很好地生成新的视角,而pixelNeRF就提出了一种方式来让模型在仅有几张甚至一张图的情况下也能生成新视角。文中提出,NeRF之所以无法在一张图基础上生成新视角的原因是没有先验信息。因此本文预先通过resnet对输入图片提取了基于每个像素的信息,然后在生成新视角时通过查询对应像素上的信息从而获得先验,辅助NeRF生成新视角的图像。上图就是在网络仅有一张图片作为输入时网络的运行流程,最中间绿色的那个f其实就是NeRF,因此与N原创 2022-04-06 22:13:55 · 3308 阅读 · 2 评论 -
[TOG2019]Deferred Neural Rendering:Image Synthesis using Neural Textures
本文处理的问题是新视角合成,即给定一个物体的一组照片,要求生成全新视角的图片。大概思路是先通过给定的这组照片重建出一个3D模型,然后旋转通过旋转3D模型就可以得到新视角的图片了。而本文最大的亮点在于他假设重建的3D模型是并不完美的(这非常符合实际,因为事实上现如今的技术无法做到完美的3D重建),因此作者让网络将像素特征(区别于RGB)储存到了纹理图中,称之为神经纹理(neural texture)。这么做的目的是希望这个神经纹理可以在渲染阶段辅助渲染器补全由于不完美的3D模型造成的artifact。因此渲染原创 2022-04-05 22:23:20 · 3390 阅读 · 0 评论 -
[2022]Facial Geometric Detail Recovery via Implicit Representation
本文处理的问题是单图的3D人脸重建。特色是(1)使用了style gan对遮挡和由于角度原因的自遮挡部分做了补全,(2)用implicit representation创建了3D图像的隐式表达,用于优化基于3DMM预测出的形状。文章分为两个大部分:1.纹理生成,2.基于纹理的形状优化纹理生成如上图左边所示,作者先用语义分割模型将图像中的遮挡部分扣掉,然后用styleGANv2做了图像补全,最后和原图融合从而获得最终的人脸纹理(2D图像中可见的部分)。由于2D图像中只展示了部分纹理,不足.原创 2022-03-29 23:03:48 · 3187 阅读 · 1 评论 -
[CVPR2018]Extreme 3D Face Reconstruction: Seeing Through Occlusions
这篇文章提供了一种非端到端的3D人脸重建方式,且可以处理局部遮挡问题。文章的主要思路就是通过3DMM预测出一个大概的3D人脸形状。然后用预测出面部凹凸贴图从而提供局部细节。最后为了处理遮挡问题,使用了相似脸补全和弱对称约束。原创 2022-03-23 17:40:01 · 381 阅读 · 0 评论 -
[CVPR2021]Spatially-invariant Style-codes Controlled Makeup Transfer
本文可以视作PSGAN的改良版,PSGAN中融合妆容特征和身份特征的时候用的是基于landmark的attention,而这里作者提取了基于区域的妆容style code,然后用StyleGAN的方式来融合特征。模型看起来也和PSGAN非常相似,唯一的区别就是将PSGAN中的MDNet换成了PSEnc。作者先将人脸通过语义分割模型分为眼睛,嘴巴和脸部三个部分,然后分别输入映射模块来获得三个风格向量,之后通过叉乘来融合后输入MLP来将调整特征在隐空间中的分布,进而通过Adain来与FIEnc提取出原创 2022-03-04 16:50:27 · 2891 阅读 · 0 评论 -
[CVPR2021]Lipstick ain’t enough: Beyond Color Matching for In-the-Wild Makeup Transfer
本文的亮点在于引入了3D模型,将2D图像转换为UV map,从而获得输入脸和参考脸之间的对应性。另外,还额外设计了一套模型用于学习装饰性妆容(区别于修饰性妆容)如上图所示,原始脸和参考脸都会用PRNet(一个3D重建模型)来提取UV纹理图。原始脸还会提取一个UV位置图,用于从UV纹理图到原始2D图的重构。文中将妆容分成了两类:颜色转移即修饰性妆容,就是一般人们会画的妆容,用于修饰面部细节。具体的方式就是参考的BeautyGAN,用了对抗损失,循环一致性损失,感知一致性损失,像素直方图损失原创 2022-03-04 16:15:04 · 3069 阅读 · 0 评论 -
[TPAMI2021]PSGAN++: Robust Detail-Preserving Makeup Transfer and Removal
和PSGAN相比只是多了一个基于密集landmark的所谓妆容密集损失,别的没有区别。结构如图所示,和PSGAN最明显的区别就是多了个IDNet,而这个IDNet事实上就是在计算cycle consistency loss的时候本就有的一个去妆容的组件。所以本质上结构是没变的上图就是本文的唯一创新点,使用了一个检测器检测出两个脸中的密集landmark,然后点与点之间做颜色损失。...原创 2022-03-04 11:37:00 · 601 阅读 · 0 评论 -
[CVPR2020]PSGAN: Pose and Expression Robust Spatial-Aware GAN for Customizable Makeup Transfer
本文的亮点是将注意力机制引入了妆容迁移之中。PSGAN如图A所示,这就是模型的整体结构。具体来说,使用MDNet和MANet的前半部分抽取图片的中间向量(和输入图片尺寸一样的二维矩阵),然后使用AMM对中间向量做attention对两个图片进行融合(也就是对输入图片进行上妆),再输入MANet的后半部分,从而获得最终结果。AMM模块如图B所示,由于直接对两张图片做attention不现实,因此作者先检测出两张图片的landmark,然后判断landmark所在的点对另一张图片每个像素点的原创 2022-03-04 11:16:06 · 590 阅读 · 0 评论 -
[CVPR2018]PairedCycleGAN: Asymmetric Style Transfer for Applying and Removing Makeup
本文主要的思路就是将cycleGAN用于妆容迁移。最大的亮点就是通过扭曲妆容图像来构造相似妆容对,从而构建出一个可以对妆容类型进行鉴别的discriminator。结构如图所示,本质上就是cycleGAN,输入一张没化妆的图像和参考图像,通过G网络生成妆后图像,然后通过F网络还原回没化妆的图像。进而做重构损失Adversarial loss最基础的GAN loss,就是判断生成的图像真不真实。identity loss这其实就是原来基于像素的cycle consistency los原创 2022-03-03 17:05:24 · 1392 阅读 · 0 评论 -
[ACMMM2018]BeautyGAN: Instance-level Facial Makeup Transfer with DeepGenerative Adversarial Network
本文主要的思路是区别对待域迁移和个体迁移。对于域的迁移使用cycleGAN,对于个体的迁移使用pixel level histogram,最后再使用identity loss来进一步保留个人特征。最大的特色就是引入了cycleGAN和pixel level histogram。整体结构很简单,就是把原始图和参考图一起丢到generator中,让generator对调两个图像之间的妆容。然后再将两张图放回generator,再次对调妆容,从而可以和最初始的两张图做重构损失 。域间迁移-domain原创 2022-03-03 16:28:51 · 1486 阅读 · 0 评论 -
[IJCAI2016]Makeup Like a Superstar: Deep Localized Makeup Transfer Network
在这篇文章之前已经有一些上妆的软件,但大都是将手工设计的妆容直接套用到人脸上,并不能自适应的生成妆容。而这篇文章的重点就是基于输入的人脸推荐最合适的妆容,并且自动生成上妆后的人脸。主要亮点是使用语义分割将面部分为几个部分,然后对每个部分分别做妆容迁移。妆容推荐使用VGG-Face提取的面部embedding来在数据库中寻找到与输入脸最相似的那个脸作为目标妆容的参考。建立面部关联性使用FCN对输入脸和参考脸做语义分割,就像上图中i部分那样,分割成面部,左眼,右眼,左眉毛等等之类的区域,原创 2022-03-03 15:51:04 · 451 阅读 · 0 评论 -
[ACMMM2021]SOGAN: 3D-Aware Shadow and Occlusion Robust GAN for Makeup Transfer
本文的主要目的就是做妆容的转移,特色是使用了3DMM的先验,从而可以利用人脸的对称性来移除遮挡和阴影导致的错误上图就是模型的结构,可以分为橘黄色框内和橘黄色框外两部分橘黄色框外负责的就是3D人脸重建的部分,即提取2D图像的纹理UV图和形状信息,然后将纹理图输入橘黄色框,橘黄色框会输出一个妆容转移后的纹理图,之后和形状信息一起输入渲染器来渲染最终结果橘黄色框内负责的就是妆容转移,分为三个部分:编解码器,翻转注意力模块(FAM),妆容迁移模块(MTM)编解码器就是和自编码器一样,将纹理UV图降维成一原创 2022-02-25 11:03:55 · 398 阅读 · 2 评论 -
[CVPR2021]pi-GAN: Periodic Implicit Generative Adversarial Networks for 3D-Aware Image Synthesis
本文要解决的问题和GRAF基本一致,而且模型结构也非常相似,都是GAN结构,只不过整合了GAN领域的一些新结构,对效果做了提升。具体结构就如上图a所示,输入相机位置和噪声(用于替换GRAF中的物体纹理和形状先验),预测对应点的颜色和密度,主要提升有三方面:1. 激活函数从上图a中可以很清楚的看到,每个线性层后接的不再是ReLu,而是一个FiLM SIREN,这个激活函数本质上就是把线性函数包含在sin里面,构造成一个可学习的sin函数。具体的结构就如图b所示。作者说这会让生成的图像更清晰,并原创 2022-02-21 15:20:44 · 1706 阅读 · 0 评论 -
[CVPR2021]NeRV: Neural Reflectance and Visibility Fields for Relighting and View Synthesis
本文的主要目的是基于NeRF的重光照。原本的NeRF中要求所有视角中的图片的光照方向,都是一致的,因此合成出来的结果中的光照自然也是都一样的,无法改变,而本文就是希望可以通过对光线建模来允许对于光照条件的任意操控。NeRF本质上是将场景建模为往外发射光线的实体,而NeRV则是将场景当做可以反射光线的实体。由于物体颜色的本质就是光照的结果,因此NeRV就单独对密度和反射光照建模(NeRF是对密度和颜色联合建模),密度和NeRF是没啥区别的,而反射光照则是基于BRDF的反射方程,即要求对应的MLP预测出物体原创 2022-02-15 12:12:01 · 2314 阅读 · 0 评论 -
[CVPR2021]NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections
NeRF存在的一大问题是对拍摄的照片要求比较高,例如光照要一致,周围不能有运动的物体。然而现实中我们能大量获得的多视角图片通常都不能满足这两点。比如如果我们想要恢复天安门,但天安门前通常人来人往,想要拍摄没人的照片非常困难。因此本文就提出了一个方案,可以放宽对于光照变化和瞬时遮挡(即运动的遮挡物)的限制。基本的建模和NeRF是一样的,就不赘述了,直接讲他如何解决光照变化和瞬时遮挡问题的。光照变化:首先,本文借用了Generative Latent Optimization(GLO)的方法,对原创 2022-02-14 17:41:54 · 2626 阅读 · 0 评论 -
[CVPR2021]IBRNet: Learning Multi-View Image-Based Rendering
NeRF存在的一大问题就是仅仅只能表示一个场景,因此这篇文章就学提出了一个框架可以同时学习多个场景,且可以扩展到没有学习过的场景。本文与NeRF最大的不同是输入的数据不仅仅有目标视角,还有对应的所有同一场景的多视角图片,因此理论上的确是可以直接端到端的应用于新场景的。模型流程:1. 将同一场景的多视角图片一同输入网络(个数不限),然后使用一个U-Net来抽取每张图片(source view)的特征,特征包括图像颜色,相机参数,图像表征(这里可以就理解成NeRF中的向辐射场发射光线,然后保存对原创 2022-02-14 00:02:25 · 1640 阅读 · 0 评论 -
[CVPR2021-best]GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields
NeRF中,我们是使用一个辐射场来模拟一个现实场景,虽然相机可以任意改变位置,但是场景里的东西是固定不能动的,因为一个辐射场就是一个整体。而本文则是通过将多个辐射场组合,从而使得任一辐射场都可以在场景内任意移动。当然,本文将辐射场radiance field称之为feature field。文章组成:1.首先整体流程就是用的GRAF那一套,因此包含了一个生成器和一个鉴别器,只不过生成器内部有所区别。一方面GIRAFFE里有多个辐射场,另一方面是在渲染方面进行了一点改变。2.首先,因为有多个辐原创 2022-02-13 21:04:34 · 2663 阅读 · 0 评论 -
[NIPS2020]GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis
这是一篇改进NeRF的文章,主要是引入了GAN,从而避免了NeRF对于相机标签的需求。主要的结构非常直观,就是一个标准的conditional GAN, 然后NeRF的部分就放在了生成器里面。首先,生成器的输入就是相机的各种参数,包括了位置,方向,焦点,远近等等信息,这些参数都是完全随机的从一个均匀分布中取出来的。然后输入光线采样器来确定光线的落点和光线的数量。之后就分了两路输入条件辐射场:1.沿着光线进行采样,确定需要采样点的位置。然后将位置信息和随机采样的形状信息结合输入神经原创 2022-02-13 18:05:53 · 1397 阅读 · 0 评论 -
[2021]NeRF−−: Neural Radiance Fields Without Known Camera Parameters
这篇文章主要讲的是如何在没有相机参数的情况下进行多视角的场景重构。首先作者介绍了两种场景重构方式:1. 直接还原场景的3D模型,这一方案的难点在于通常难以恢复细节,而且光照对于角度的变化并不真实,因为通常都会假设表面是漫反射的2. 隐式表示(Implicit-Representation)的方案,即学习这么一个模型,输入是相机的参数,输出是相机视角观测到的图像。而nerf就是这种类型的模型。这种方案有助于减少3D模型的存储,但问题在于需要针对每个场景单独建模然后,作者提到,在训练nerf的时原创 2022-02-10 22:09:02 · 2509 阅读 · 1 评论