育碧(Ubisoft)旗下的先进研发部门Ubisoft La Forge,作为学术界与游戏工业之间的桥梁。它不仅仅是为了做游戏,更是为了解决游戏开发中遇到的高难度技术问题,并将学术界的前沿理论转化为实际可用的开发工具。
刚刚,Ubisoft La Forge开源了Chord,让物理渲染材质生成的生成-估计二重奏响彻3D世界,为3D内容创作带来新引擎。

在3A游戏开发中,PBR材质是实现视觉真实感的核心基础。
大型游戏项目往往需要数百种可复用材质,每种材质都需包含完整的基础色(Base Color)、法线(Normal)、高度(Height)、粗糙度(Roughness)和金属度(Metalness)贴图,且需严格符合 svBRDF 标准。
在传统制作流程中,这些资产需由纹理艺术家通过摄影、程序化工具制作完成,期间还需进行大量手动调整。
这种方式不仅耗时漫长,对专业技能的要求也极高。
Chord的生成-估计双阶段创新框架,通过模拟物理渲染过程的逆向分解,精准、快速地将文本或图像转化为高质量的PBR材质。
它巧妙地将纹理生成与材质参数估计分离,利用扩散模型的强大能力和物理渲染规律,解决了3D内容创作中材质获取难、效率低的核心痛点 。
3D资产创作的破局之道
在计算机图形学领域,如何快速创建逼真的物体外观一直是个核心议题 。
早期的技术大多停留在合成RGB纹理图片的层面,但随着物理渲染(PBR)工作流的普及,单有一张彩图已经远远不够了 。
现代3D渲染需要的是一套完整的空间变化双向反射分布函数(SVBRDF)贴图,这通常包括基础色(Basecolor)、法向(Normal)、粗糙度(Roughness)和金属度(Metalness)等多个通道 。
这不仅增加了数据的维度,更引入了复杂的物理约束。
每一张贴图都代表着不同的物理属性,它们必须在空间上完美对齐,才能在渲染时呈现出真实的光影效果 。
传统的材质制作往往需要艺术家花费大量时间手工绘制或通过复杂的扫描设备获取,门槛高且耗时 。
虽然近期出现了一些利用生成式模型来辅助材质创作的方法,试图将多通道信息的生成压缩到一个潜在空间中进行处理,或者直接端到端地生成所有贴图,但这些方法往往顾此失彼 。
它们受限于耦合的架构设计,很难在保证生成质量的同时,还提供灵活的用户控制 。
Chord框架应运而生。
它并没有试图一口气解决所有问题,而是聪明地将任务拆解为两个阶段:先生成,后估计 。

第一阶段专注于生成。
利用微调后的扩散模型,根据用户的文本提示或参考图,生成一张带有光影效果的、可平铺的RGB纹理图像 。这一步解决了无中生有的创造性问题,确保了视觉上的美观和用户意图的对齐。
第二阶段专注于估计。
这才是Chord的核心创新所在。它引入了一种名为渲染分解链(Chain of Rendering Decomposition,简称Chord)的流水线 。这个阶段的任务是做减法和逆运算:从刚才生成的RGB图像中,一步步剥离出基础色、法向、粗糙度和金属度等物理属性。
这种分治策略有一个巨大的潜在优势:它利用了隐式共享的光照和相机条件 。
生成的RGB图像和后续反推的材质,默认处于相同的视角和光照环境下,这极大地简化了原本极度欠约束的逆渲染问题。
庖丁解牛般的渲染分解链
Chord的设计哲学源于对物理渲染方程的深刻理解。
它没有像其他方法那样试图一次性预测所有通道,而是像解方程一样,按照物理属性的依赖关系,环环相扣地进行预测 。
整个分解过程被设计为三个紧密相连的步骤,每一步都为下一步提供了关键的线索。
一切始于基础色(Basecolor)。
在所有PBR通道中,基础色与输入的RGB纹理图像在数据分布上最为接近 。
如果你观察这两种数据的分布图,会发现它们有显著的重叠 。这意味着从RGB图像推断基础色相对容易,模型只需要学会去除图像中的高光和阴影,保留物体原本的颜色信息即可 。
因此,Chord首先以RGB图像为条件,预测出基础色贴图 。
这一步的准确性至关重要,因为它是后续所有计算的基石。如果这一步错了,后续的几何和材质估算都会建立在错误的信息之上。为了尽量减少误差累积,将最简单的任务放在第一步是极其明智的策略 。
有了基础色,我们就可以通过一个简单的除法操作,从原始RGB图像中移除颜色的影响,得到一张近似的辐照度图(Irradiance Map)。
这个操作背后的物理直觉是:漫反射光照主要由物体的颜色(反照率)和光照几何关系决定。除以颜色后,剩下的信息主要就是光照与物体表面几何结构相互作用的结果 。
接着,Chord模型将原始RGB图像和这张计算出的辐照度图同时作为条件,去预测法向贴图(Normal Map)。
这种设计巧妙地规避了直接从RGB预测法向时容易受颜色纹理干扰的问题,让模型能专注于几何细节的恢复 。
在此基础上,高度图(Height Map)可以通过对法向图进行积分来获得,这一步复用了经典的计算机视觉方法,将多通道预测任务进一步简化 。
粗糙度(Roughness)和金属度(Metalness)决定了物体的高光表现,通常很难直接从静态图像中准确推断。Chord再次利用了物理约束。
此时,我们已经有了预测好的基础色和法向图。为了进一步提炼信息,Chord首先根据辐照度图估算出一个大致的光照方向 。然后,它并不是让神经网络直接猜一个结果,而是结合了一个基于渲染误差的搜索策略。
系统会在一个预定义的离散空间内,对粗糙度和金属度的组合进行网格搜索 。
对于每一个像素,系统都会尝试不同的粗糙度和金属度值,结合已知的基础色、法向和光照,重新渲染出一个像素值,并计算这个渲染值与原始RGB像素值的差异 。
差异最小的那组参数,被认为是当前最优的物理属性组合,从而形成一张最佳组合图。最后,模型将原始RGB图像和这张最佳组合图作为条件,预测最终的粗糙度和金属度贴图 。
这种方法实际上是在告诉神经网络:根据物理公式,这里应该是这种材质,你参考这个线索去生成最终的高质量贴图。这比让网络盲目猜测要可靠得多。
在实现上述链式预测时,研究团队遇到了一个棘手的技术问题:如果直接在一个共享权重的模型中训练所有通道的预测,不同模态(如颜色和法向)之间的特征会发生冲突,导致预测质量下降 。
为了解决这个问题,Chord引入了一种名为LEGO-conditioning的模块化调节机制 。

这个设计的灵感来源于乐高积木。它在保持模型主体架构(U-Net的中间层)共享的同时,为每一种目标模态(基础色、法向、粗糙度/金属度)设计了独立的输入端和输出端 。
具体来说,针对每一个预测任务,模型会激活特定的编码器(Down-Block)和解码器(Up-Block),而中间的特征处理层是共享的。这种设计既保证了不同通道在空间结构上的严格对齐(因为中间层共享),又赋予了每个通道独特的特征提取能力(因为两端独立),有效地避免了模态间的干扰 。
此外,这种设计并没有带来显著的计算或内存开销,是一种高效且优雅的解决方案 。
性能与速度的双重飞跃
为了验证Chord框架的有效性,研究团队构建了一个包含28,344种PBR材质的数据集,并进行了详尽的对比实验 。
在单步推理效率上,Chord展现出了惊人的优势。相比于之前的SOTA方法RGB→X,Chord的推理速度提升了11倍 。

这得益于其采用的单步扩散模型微调策略,无需像传统扩散模型那样进行多步去噪,大大缩短了生成时间 。
从下表可以看出,在各项指标上,Chord都取得了领先。


表格数据清晰地展示了每一个技术改进点带来的性能提升。
Single-step(单步生成):显著提升了PSNR(峰值信噪比),意味着像素级别的准确度提高了,同时将推理时间从23.6秒大幅压缩至1.9秒 。
Combined Loss(组合损失):改善了LPIPS(感知相似度),这意味着生成的图像在人眼看起来更清晰自然,解决了单步生成容易产生的模糊问题 。
LEGO-conditioning:相较于朴素的链式结构,它进一步提升了各项指标,证明了分离权重对于多模态任务的重要性 。
Irradiance & Grid Search(辐照度与网格搜索):这些基于物理先验的模块加入后,模型对光照和材质的理解更加深入,进一步推高了准确率 。
在视觉质量上,Chord生成的材质在细节丰富度和物理合理性上都优于MatFuse等现有方法。
图5:与MatFuse的材质生成对比。Chord在文本对齐和视觉质量上均表现更佳,生成的木板纹理更清晰,裂缝和磨损细节更真实。
从文生图到材质编辑
Chord得益于第一阶段基于SDXL的生成能力,它天然继承了大规模文生图模型的灵活性 。

用户只需输入简单的文本提示,Chord就能生成相应的PBR材质。生成的材质不仅视觉逼真,而且各个通道(法向、粗糙度等)均符合物理规律 。
如果用户已经有了一张参考图,Chord可以以此为基础生成类似风格的PBR材质。这对于需要根据特定概念图进行资产开发的艺术家来说非常实用 。
通过结合ControlNet等技术,用户可以利用线稿(Line Art)或深度图(Depth Map)来严格控制生成材质的结构布局。例如,用户可以画一个特定的砖块排列草图,Chord就能生成严格遵循该排列的真实砖墙材质 。
利用In-painting(修补)技术,用户可以对材质的局部进行修改。例如,想要去掉墙面上的某块污渍,或者改变局部的纹理,只需涂抹掩码区域,Chord就能重新生成该区域的RGB纹理并同步更新所有的PBR通道,且与周围环境无缝融合 。
尽管Chord表现出色,但它并非完美无缺。
其核心假设是生成的RGB纹理处于一致的定向光照下。在大多数情况下,这个假设是成立的。
然而,对于那些表面极其光滑、反光强烈的材质(如高光泽金属),这个假设可能会失效 。
问题在于平铺性(Tileability)和定向光照之间的内在冲突。
为了让纹理可以无缝平铺,生成过程中使用了循环填充(Circular Padding)。
这会导致高光和边缘梯度在图像边缘发生包裹,产生不自然的光照效果,进而误导材质估算模块 。
未来,或许可以通过分别生成无平铺约束的高光图和可平铺的底色图来解决这一矛盾 。
此外,训练数据中部分材质自带了烘焙好的环境光遮蔽(AO)阴影,这有时会导致预测的基础色中残留不应有的阴影信息 。
提升数据质量或引入去阴影算法将是后续改进的方向。
免费试玩:
https://huggingface.co/spaces/ksangk/chord-demo
参考资料:
https://ubisoft-laforge.github.io/world/chord/
https://arxiv.org/pdf/2509.09952
https://github.com/ubisoft/ubisoft-laforge-chord
849

被折叠的 条评论
为什么被折叠?



