Project:LERF: Language Embedded Radiance Fields
Author:UC Berkeley
摘要
人类使用自然语言来描述物理世界,并基于广泛的属性来指代特定的三维位置:视觉外观、语义、抽象联想或可操作的启示。在这项工作中,我们提出了Language Embedded Radiance Fields(LERF),这是一种将Language embedding嵌入到NeRF的方法。LERF在NeRF中学习了一个dense、多尺度的language field,通过沿着训练射线进行体素渲染CLIP embedding,跨训练视图监督这些embedding,以提供多视图的一致性和平滑language field。
方法
整体框架如上,对一个场景,作者渲染了两个field,一个是basic NeRF,一个是language field。
训练时,NeRF网络与基础的NeRF相同,渲染language field到一个image时,采用了[1][2]的技巧,但是增加了一个 scale 参数,具体细节需要看代码。对于一个crop image对应光线的训练,使用多个尺度下的crop image的clip embedding当作gt(使用线性插值整合到一起),然后以此来监督渲染出的language image。

LERF是一种将自然语言嵌入到NeRF(神经辐射场)的方法,学习一个多尺度的语言场,以增强场景的语义描述。通过CLIP嵌入的体素渲染提供多视图一致性。在推理时,可以使用查询的语义相关性得分在色彩图像上进行可视化。然而,LERF在处理语义相似物体和空间关系时存在局限性,可能需要改进来捕捉3D空间关系。
最低0.47元/天 解锁文章
287

被折叠的 条评论
为什么被折叠?



