光芯片登上Nature！上海交大，中科院等告别电子算力墙，用光实现全并行张量处理

原创于 2025-12-02 11:20:37 发布 · 323 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

上海交通大学、中科院、芬兰埃斯波阿尔托大学等提出了并行光学矩阵-矩阵乘法的全新光学计算架构POMMM，突破GPU能效瓶颈，瞬间完成复杂神经网络推理。

利用光的玻色子特性与空间频率对偶性，POMMM范式在单次光传播中实现了全并行张量处理，为高带宽、低能耗的下一代计算架构奠定了物理基础。

光子计算从向量迈向张量的维度跨越

人工智能正在重塑现代生活的面貌，其背后的驱动力是庞大的神经网络。

这些网络在训练和推理过程中，对数字处理器提出了近乎奢求的算力索取。

无论是处理图像还是语言，核心运算都指向同一个数学操作：张量处理。

在现有的硅基芯片上，这通常转化为GPU张量核心上的矩阵-矩阵乘法（MMM）。

数字电子计算虽然成熟，却面临着物理层面的阻滞。

巨大的内存带宽需求、惊人的电力消耗，以及张量核心资源利用率的瓶颈，让摩尔定律的延续步履维艰。

光，作为信息的载体，拥有令人着迷的先天优势。

它具备极大的带宽，天然的并行性，以及极低的能耗。这让光学计算成为了加速神经网络的理想候选者。

过去的光学计算尝试，已经能够通过调制光的幅度、相位和波长，在单次传播中完成点积、向量-矩阵乘法甚至傅里叶变换。

这些成果令人振奋，却止步于“向量”与“矩阵”的二维世界。

面对更高阶的张量处理，现有的光学神经网络（ONN）方案显得力不从心。

它们通常需要多次光传播来模拟张量运算，这直接破坏了光速计算的并行优势。

为了解决这个问题，一些研究试图引入空间复用或波长-时间复用。

这些方法往往以牺牲系统设计的简洁性为代价，甚至在逻辑上背离了并行加速的初衷。

另一种基于衍射的计算虽然并行度极高，但其架构死板地依赖衍射原理，无法适应通用计算的需求。

光学计算领域长期面临着一个两难困境：要么拥有高并行性但缺乏通用性，要么具备通用性却牺牲了效率。

现有的范式大多只能针对特定类型的网络步骤，无法提供一个通用的加速框架。

这导致为GPU开发的先进模型难以无缝迁移到光学平台上。

POMMM范式通过单次相干光传播，直接实现了张量处理。

它不需要额外的时间、空间或波长复用，也不依赖预处理，而是巧妙地利用了光的物理特性，增加了一个额外的计算维度。

这不仅突破了现有方法的局限，更让光学计算在理论计算能力和效率上迈出了关键一步。

利用傅里叶变换性质构建并行计算光路

要理解POMMM如何工作，我们需要回到矩阵乘法的本质。

传统的矩阵A与矩阵B相乘，分两步走：首先是行与列的Hadamard积（逐元素相乘），然后是求和。

在光学中，Hadamard积可以通过空间光调制器的幅度调制轻松实现。

求和通常通过透镜的聚焦功能（二次相位调制）来完成，也就是光学傅里叶变换。

真正的难题在于：如何并行地计算矩阵A的所有行与矩阵B的所有列的点积，并将结果映射到正确的位置，互不干扰。

POMMM的设计灵感源自傅里叶变换的两个经典性质：时移特性和频移特性。

时移特性告诉我们，信号在空间域的移动不会改变其频谱的幅度分布。

频移特性则表明，在空间域施加一个线性相位调制，会导致频谱中出现相应的位置偏移。

这两个物理法则构成了POMMM的核心。

整个过程如同精密的舞蹈。

首先，矩阵A的元素被编码到空间光场的幅度和位置上。每一行都被赋予了一个独特的线性相位梯度。

接着，光场经历一次列向傅里叶变换。这一步利用了时移特性。在变换后，光场的每一行实际上成为了矩阵A所有行的叠加。

此时，我们得到了一个“混合矩阵”。在这个混合场上，系统加载了矩阵B的转置信息，进行幅度调制。这一步在物理上完成了所有行与列的并行Hadamard积。

最后，执行行向傅里叶变换。这里是频移特性大显身手的地方。由于我们在第一步中对矩阵A的不同行施加了不同的线性相位，这些行的贡献在最终的频域中会自动分离到不同的空间位置。

结果矩阵就这样在单次光传播中生成了。

为了验证这一理论，研究团队搭建了一个包含激光器、空间光调制器（SLM）、透镜组和相机的光学原型系统。

光束首先被准直并扩展，投射到第一个幅度空间光调制器（ASLM1）上，编码矩阵A。

随后，光束通过一个4f光学系统成像到相位空间光调制器（PSLM）上。在这里，每一行光都被加上了特定的线性相位。

光束继续前行，穿过一组柱面透镜（CL1, 2, 3）。这组透镜的设计非常巧妙，它们在行方向成像，在列方向聚焦。这使得在第二个幅度空间光调制器（ASLM2）的表面，形成了矩阵A每一行“扇出”后的叠加场。

在ASLM2上，矩阵被编码上去。此时，光与物质的相互作用完成了乘法运算。

最后，光束通过第二组柱面透镜（CL4, 5, 6），执行逆向操作：行向傅里叶变换，列向成像。最终的结果被一台高灵敏度的qCMOS相机捕获。

这一整套复杂的张量运算，完全并行，光速完成，没有任何中间读写过程。

实验验证与GPU高度一致的计算精度

理论的优雅需要实验的铁证。研究人员将POMMM原型的计算结果与标准GPU张量核心的计算结果进行了严苛的对比。

测试涵盖了各种场景，包括不同尺寸的非负矩阵（对称矩阵、上三角矩阵）以及实值矩阵（包含负值和共轭矩阵对）。

从[20, 20]的非负矩阵乘法，到[10, 10]的实值矩阵乘法，实验结果与GPU结果展现出了惊人的一致性。

qCMOS相机捕捉到的原始光场图像清晰地展示了计算结果的点阵，每一个亮点都对应结果矩阵中的一个数值，位置精确，强度准确。

为了量化这种精度，团队进行了大样本统计分析。他们选取了[10, 10]到[50, 50]等多种矩阵尺寸，每种尺寸测试50对随机矩阵。

分析结果显示，POMMM与GPU计算之间的平均绝对误差（MAE）始终保持在0.15以下，归一化均方根误差（RMSE）小于0.1。这一数据有力地证明了POMMM框架在物理实现上的高保真度。

对于一个模拟计算系统而言，这样的精度难能可贵。它意味着POMMM不仅仅是一个实验室的玩具，而是具备了处理实际计算任务的潜力。

研究人员还深入分析了误差的来源，包括光学元件的缺陷和理论模型中的近似，并提出了有效的误差抑制策略。

卷积与Transformer网络的光学直接部署

高精度不仅仅是为了数字好看，它的终极目的是为了承载现有的人工智能模型。

由于POMMM与GPU计算结果的高度一致性，它在理论上允许直接部署为GPU设计的标准神经网络架构。

这意味着我们不再需要为了适应光学系统的特殊性而去重新设计网络，也不需要费时费力地进行专门的“光学训练” 。

为了证实这一点，研究团队在POMMM系统上直接运行了卷积神经网络（CNN）和视觉Transformer（ViT）模型，处理经典的MNIST手写数字和Fashion-MNIST数据集。

这些实验覆盖了现代神经网络中最核心的三种张量运算：多通道卷积、多头自注意力机制，以及多样本全连接层。

在CNN中，卷积操作被巧妙地转化为大矩阵乘法。

例如，一个50通道的卷积层被抽象为一个[36, 36]矩阵与[36, 50]矩阵的乘法。

在ViT中，无论是嵌入层的补丁生成，还是编码器中的查询（Q）、键（K）、值（V）计算，本质上都是矩阵运算。

实验结果令人振奋。

在MNIST数据集上，直接使用GPU训练好的非负权重，POMMM仿真系统上的CNN推理准确率达到了94.23%，与GPU的94.44%几乎持平。

ViT模型的表现同样出色，仿真准确率达到96.13%，紧追GPU的96.60%。

在更复杂的Fashion-MNIST数据集上，这种一致性依然存在。CNN和ViT在光学系统上的推理表现都忠实地复现了电子计算机的结果。

即使引入负值权重，通过两个连续的POMMM单元来处理，系统的准确率依然坚挺。

CNN在MNIST上的准确率达到了97.75%，甚至略高于非负约束下的表现。

更进一步，团队测试了系统对误差的容忍度。他们发现，即使存在一定的光学误差，经过针对性训练的模型依然可以达到与GPU相当的推理精度。

这揭示了一个有趣的现象：严格的数学一致性并非不可或缺。

神经网络本身具有极强的鲁棒性。在某些线性分类任务中，光学系统引入的微小噪声甚至可能在训练后增强模型的表达能力。

为了展示系统的可扩展性，团队甚至模拟了一个巨大的U-Net模型进行图像风格迁移，其中最大的矩阵乘法规模达到了惊人的[256, 9216]乘以[9216, 256]。

多波长复用开启四阶并行计算新空间

光不仅有强度和相位，还有颜色（波长）。POMMM范式并没有浪费这一宝贵的维度。

由于光场的空间频率分布依赖于波长，不同颜色的光经过相同的相位调制后，会落在频域的不同位置。这就像是一个天然的光谱仪。

利用这一特性，POMMM可以轻松扩展到多波长复用。这意味着我们可以在单次光传播中，同时处理多个矩阵，或者处理更高维度的张量。

理论上，这引入了第四阶的并行性，允许并行处理一个[L, N, M]的张量与一个[M, N]的矩阵，其中L代表波长的数量。

在实验中，研究人员演示了双波长POMMM。他们将复数矩阵的实部和虚部编码在两个不同的波长（540nm和550nm）上。

结果表明，两个波长的光信号互不干扰，独立完成了各自的计算任务，最后在输出端合成为完整的复数运算结果。这一过程等效于处理了一个[2, 5, 5]的张量。

这种多波长扩展能力让POMMM在理论计算能力上远超现有的光学计算范式。

随着波长通道数的增加，其并行处理能力将呈指数级增长。

在能效方面，尽管目前的实验室原型仅使用了普通的商用元件，其实际能效已经达到了2.62 GOP/J（每焦耳十亿次运算）。

这仅仅是起点。

POMMM本质上只依赖无源的相位调制，不需要中间的电光转换。

如果与专用的高速光子硬件（如集成光路或VCSEL阵列）结合，其理论能效有望突破1000 GOP/J甚至更高，将现有的顶级GPU远远甩在身后。

POMMM不仅验证了利用光的物理特性进行高维计算的可行性，更为未来构建大规模、高能效、通用的光学计算平台指明了方向。

这项技术让我们看到，光，或许正是解开算力枷锁的那把钥匙。

参考资料：

https://www.nature.com/articles/s41566-025-01799-7

https://arxiv.org/pdf/2506.14277

END