神经辐射场(NeRF)

原创于 2025-11-05 17:18:41 发布 · 449 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

具身智能专栏收录该内容

11 篇文章

订阅专栏

🎯 什么是NeRF？一个生活化的比喻

想象你去旅游，用手机拍了几十张照片围着一个雕塑转了一圈。现在你想：

从一个没拍过的角度看这个雕塑会是什么样？
能不能3D重建出这个雕塑？

**NeRF就是解决这个问题的魔法！**它能从你的照片中"学会"这个场景，然后从任何角度生成新照片，就像你真的从那个角度拍了一样。

🧠 核心思想：用神经网络"记住"整个3D世界

传统方法 vs NeRF

传统3D重建（像体素网格）：

把空间切成小方块（体素），每个方块存颜色
问题：存储量巨大！
- 分辨率512³ = 1.34亿个方块
- 每个方块4字节 → 需要500MB+

NeRF的做法：

用一个小型神经网络（只有5MB）"记住"整个场景
需要知道某个位置的颜色？问神经网络！
就像把3D场景"压缩"进了神经网络的参数里

📐 NeRF的工作原理：5个步骤详解

步骤1: 输入 - 告诉网络"我要看哪里"

假设你想知道空间中某个点的信息，你需要给NeRF提供：

输入 = (x, y, z, θ, φ)
       ↓    ↓    ↓  ↓  ↓
       位置坐标   观察方向（俯仰角、方位角）

# 具体例子
位置: (2.5, 1.3, -0.8) 米  # 3D空间坐标
方向: (45°, 120°)         # 从这个角度看过去

为什么需要方向？
因为有些物体从不同角度看颜色不同（比如：镜面反射、汽车油漆、肥皂泡）

步骤2: 位置编码 - 让网络"看清"细节

神经网络天生"近视"，看不清高频细节（纹理、边缘）。解决方法：位置编码

# 原始坐标
x = 2.5

# 位置编码（把1个数变成20个数）
γ(x) = [sin(2⁰π·x), cos(2⁰π·x),    # 频率1
        sin(2¹π·x), cos(2¹π·x),    # 频率2
        sin(2²π·x), cos(2²π·x),    # 频率4
        ...
        sin(2⁹π·x), cos(2⁹π·x)]   # 频率512

# 结果：1个坐标 → 20维向量
# 3个坐标(x,y,z) → 60维
# 2个方向(θ,φ) → 24维
# 总输入：84维向量

类比：就像给近视的人戴上眼镜，让它能看清细节！

步骤3: 神经网络 - “场景压缩器”

输入(84维) 
  ↓
【全连接层1】256神经元 + ReLU
  ↓
【全连接层2】256神经元 + ReLU
  ↓
【全连接层3】256神经元 + ReLU
  ↓
【全连接层4】256神经元 + ReLU
  ↓
【全连接层5】256神经元 + ReLU + [跳跃连接：加回原始输入]
  ↓
【全连接层6】256神经元 + ReLU
  ↓
【全连接层7】256神经元 + ReLU
  ↓
【全连接层8】256神经元 + ReLU
  ↓
输出分支：
├─ 密度σ (1个数)：这个点有多"实心"？
└─ 颜色(r,g,b) (3个数)：这个点什么颜色？

输出例子：

密度 σ = 5.8   # 大于0说明这里有物体
颜色 c = (0.85, 0.12, 0.34)  # 接近红色

步骤4: 体渲染 - 把3D信息投影成2D图像

这是NeRF最核心的魔法！想象一条光线从相机出发穿过3D空间：

相机 ----光线---> 空气 -> 物体表面 -> 物体内部 -> 背景
      采样点:   p1   p2   p3   p4   p5   p6   p7
      密度:    0.1  8.5  12.3  9.7  4.2  0.0  0.0
      颜色:    灰   红   红   暗红  黑   黑   黑

体渲染公式（看起来复杂，其实就是加权平均）：

# 伪代码
最终颜色 = 0
透明度 = 1.0

for 每个采样点 i:
    # 这个点会阻挡多少光线？
    阻挡率 = 1 - exp(-密度[i] × 距离)
    
    # 这个点对最终颜色的贡献
    贡献 = 透明度 × 阻挡率 × 颜色[i]
    最终颜色 += 贡献
    
    # 更新剩余透明度
    透明度 *= (1 - 阻挡率)

直观理解：

高密度区域（实心物体）→ 强烈影响最终颜色
低密度区域（空气）→ 几乎不影响
已经被前面物体挡住了 → 后面的不重要

步骤5: 训练 - 让网络学会场景

for 每张训练照片:
    for 每个像素:
        # 1. 从相机发射一条光线穿过这个像素
        光线 = generate_ray(相机位置, 像素坐标)
        
        # 2. 沿光线采样很多点（比如64个）
        采样点 = sample_points(光线, N=64)
        
        # 3. 对每个点，问NeRF：密度和颜色是多少？
        for 点 in 采样点:
            密度, 颜色 = NeRF(点.xyz, 光线.方向)
        
        # 4. 体渲染：合成这条光线的最终颜色
        预测颜色 = volume_render(密度列表, 颜色列表)
        
        # 5. 与真实照片对比，计算损失
        损失 = ||预测颜色 - 真实颜色||²
        
        # 6. 反向传播，更新网络参数
        优化器.step(损失)

🎨 完整例子：重建一个乐高推土机

数据准备

训练数据：
- 100张照片（从不同角度拍摄）
- 每张照片800×800像素
- 相机位置和朝向（已知）

目标：
从任意新角度渲染推土机

训练过程可视化

迭代次数：0步
[模糊一团，什么都看不清]
      ░░░░░
    ░░░▓▓▓░░░
    ░░▓███▓░░
      ░░░░░

迭代次数：1000步
[开始有轮廓了]
    ⬜⬜⬛⬜⬜
  ⬜⬜⬛⬛⬛⬜⬜
  ⬜⬛🟨🟨🟨⬛⬜
    ⬜⬛⬛⬛⬜

迭代次数：5000步
[细节逐渐清晰]
    [推土铲]
  [  驾驶舱  ]
  [🟨🟨履带🟨🟨]

迭代次数：100000步
[完美重建！]
可以看清：
✓ 黄色油漆
✓ 红色警示灯
✓ 履带纹理
✓ 窗户反光

推理阶段：生成新视角

# 用户：我想从正上方俯拍

# 1. 定义新相机位置
新相机 = {
    "位置": (0, 5, 0),  # 正上方5米
    "朝向": (90°, 0°)   # 向下看
}

# 2. 对屏幕每个像素发射光线
for 每个像素 (u, v):
    光线 = 从新相机通过像素(u,v)发射()
    采样点 = 沿光线采样64个点()
    
    # 3. 查询NeRF（前向传播，不需要训练）
    密度和颜色 = [NeRF(点) for 点 in 采样点]
    
    # 4. 体渲染
    像素颜色 = volume_render(密度和颜色)

# 输出：800×800的俯视图图像

🌟 NeRF的神奇之处

1. 视角相关的效果

从正面看：
窗户有反光 ✨（亮）

从侧面看：
窗户几乎黑色 ⬛（暗）

NeRF学会了：同一个点(x,y,z)从不同方向(θ,φ)看，颜色不同！

2. 压缩效率

传统存储：
512³体素 × 4字节 = 500 MB

NeRF存储：
8层×256神经元 ≈ 5 MB

压缩率：100倍！

3. 连续表示

传统：离散网格（只能查询整数坐标）
NeRF：连续函数（可以查询任意小数坐标）

查询 (2.5438, 1.7892, -0.3344) ？
传统：四舍五入到 (2, 2, 0)
NeRF：直接输出精确值 ✓

🔬 数学公式详解（给想深入的你）

体渲染方程

C(r) = ∫[near→far] T(t) · σ(r(t)) · c(r(t), d) dt

其中：
- C(r): 光线r的最终颜色
- t: 沿光线的距离
- T(t) = exp(-∫[near→t] σ(r(s))ds): 透射率（前面有多少光被挡了）
- σ(r(t)): t位置的密度
- c(r(t), d): t位置从d方向看的颜色

离散化（实际计算）：
C ≈ Σᵢ Tᵢ · (1 - exp(-σᵢδᵢ)) · cᵢ
其中：Tᵢ = exp(-Σⱼ<ᵢ σⱼδⱼ)

位置编码

γ(p) = (sin(2⁰πp), cos(2⁰πp), ..., sin(2^(L-1)πp), cos(2^(L-1)πp))

L=10时：1维 → 20维

💻 极简PyTorch代码示例

import torch
import torch.nn as nn

class NeRF(nn.Module):
    def __init__(self):
        super().__init__()
        # 8层MLP
        self.net = nn.Sequential(
            nn.Linear(60, 256), nn.ReLU(),  # 60=3coords×10freqs×2(sin/cos)
            nn.Linear(256, 256), nn.ReLU(),
            nn.Linear(256, 256), nn.ReLU(),
            nn.Linear(256, 256), nn.ReLU(),
            # ... 跳过其他层
        )
        self.density_head = nn.Linear(256, 1)  # 输出密度
        self.color_head = nn.Linear(256+24, 3) # 输出RGB（24=方向编码）
    
    def forward(self, xyz, direction):
        # xyz: (B, 3) 位置
        # direction: (B, 3) 观察方向
        
        # 位置编码
        xyz_encoded = positional_encoding(xyz, L=10)  # (B, 60)
        
        # 前向传播
        h = self.net(xyz_encoded)  # (B, 256)
        
        # 密度（与方向无关）
        density = self.density_head(h)  # (B, 1)
        
        # 颜色（与方向相关）
        dir_encoded = positional_encoding(direction, L=4)  # (B, 24)
        h_dir = torch.cat([h, dir_encoded], dim=-1)
        color = torch.sigmoid(self.color_head(h_dir))  # (B, 3)
        
        return density, color

def positional_encoding(x, L):
    """位置编码"""
    freqs = 2.0 ** torch.arange(L) * torch.pi
    encoded = []
    for freq in freqs:
        encoded.append(torch.sin(freq * x))
        encoded.append(torch.cos(freq * x))
    return torch.cat(encoded, dim=-1)

# 体渲染（简化版）
def volume_render(densities, colors, dists):
    """
    densities: (N_rays, N_samples, 1)
    colors: (N_rays, N_samples, 3)
    dists: (N_rays, N_samples) 采样点间距
    """
    # 计算alpha值（不透明度）
    alpha = 1.0 - torch.exp(-densities * dists)
    
    # 计算透射率
    T = torch.cumprod(1.0 - alpha + 1e-10, dim=1)
    T = torch.cat([torch.ones_like(T[:, :1]), T[:, :-1]], dim=1)
    
    # 加权求和
    weights = T * alpha
    rgb = (weights * colors).sum(dim=1)
    
    return rgb

🎯 实际应用场景

1. 电影特效

拍摄：演员在绿幕前表演
NeRF：从少量视角重建3D场景
应用：任意角度合成镜头（减少重拍）

2. 自动驾驶

采集：汽车摄像头拍摄街景
NeRF：重建3D城市模型
应用：在虚拟环境中测试算法

3. 房地产

拍摄：用手机拍20-30张房间照片
NeRF：生成3D虚拟看房
应用：买家远程浏览（像在现场一样）

4. 文物保护

拍摄：从各角度拍摄古董
NeRF：数字化存档
应用：即使实物损坏，3D模型永久保存

⚡ NeRF的局限性

❌ 训练慢：原始NeRF需要几小时到几天
   解决：Instant-NGP (2022) → 几秒到几分钟

❌ 需要多视角照片：至少20-50张
   解决：PixelNeRF → 单张或少量图像

❌ 动态场景不行：只能重建静态物体
   解决：D-NeRF, Nerfies → 可以处理动态

❌ 泛化能力弱：每个场景要单独训练
   解决：pixelNeRF, MVSNeRF → 跨场景泛化