LERF: Language Embedded Radiance Fields

原创

已于 2023-11-05 21:43:26 修改 · 832 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #深度学习 #机器学习

于 2023-03-23 22:06:51 首次发布

LERF是一种将自然语言嵌入到NeRF（神经辐射场）的方法，学习一个多尺度的语言场，以增强场景的语义描述。通过CLIP嵌入的体素渲染提供多视图一致性。在推理时，可以使用查询的语义相关性得分在色彩图像上进行可视化。然而，LERF在处理语义相似物体和空间关系时存在局限性，可能需要改进来捕捉3D空间关系。

Project：LERF: Language Embedded Radiance Fields

Author：UC Berkeley

摘要

人类使用自然语言来描述物理世界，并基于广泛的属性来指代特定的三维位置：视觉外观、语义、抽象联想或可操作的启示。在这项工作中，我们提出了Language Embedded Radiance Fields（LERF），这是一种将Language embedding嵌入到NeRF的方法。LERF在NeRF中学习了一个dense、多尺度的language field，通过沿着训练射线进行体素渲染CLIP embedding，跨训练视图监督这些embedding，以提供多视图的一致性和平滑language field。

方法

整体框架如上，对一个场景，作者渲染了两个field，一个是basic NeRF，一个是language field。

训练时，NeRF网络与基础的NeRF相同，渲染language field到一个image时，采用了[1][2]的技巧，但是增加了一个 scale 参数，具体细节需要看代码。对于一个crop image对应光线的训练，使用多个尺度下的crop image的clip embedding当作gt（使用线性插值整合到一起），然后以此来监督渲染出的language image。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。