Multiscale diffractive U-Net
a robust all-optical deep learning framework modeled with sampling and skip connections
abstract:
衍射深度神经网络(D²NNs)作为一种全光学学习框架,在运行速度、数据吞吐量和能耗方面具有很大的潜力。网络的深度和层间的错位是制约其进一步发展的两个问题。本文提出了一种基于多尺度特征融合的鲁棒全光网络框架(多尺度衍射U-Net, MDUNet)。通过引入采样和跳过连接,可以显著提高网络的深度扩展和对齐鲁棒性。
与常见的全光学习框架相比,MDUNet在MNIST和Fashion-MNIST上的准确率最高,分别为98.81%和89.11%。通过集成学习方法构建光电混合神经网络,MNIST和Fashion-MNIST的测试准确率分别提高到99.06%和89.86%。
1. Introduction
(1)神经网络在解决复杂任务时,通常需要扩大网络规模,这对硬件的计算效率和数据吞吐量提出了严格的要求。速度和能量基本上受到寄生电容、隧道效应和串扰的限制。
(2)光学运算可以以光速进行卷积、傅里叶变换和微分,为神经网络提供了额外的拟合自由度。集成在芯片上的光子电路可以模拟突触和神经信号,从而构建人工神经网络。
(3)D²NN的网络深度和各层的不对齐仍然是限制其进一步发展的两个问题。
(4)在光学领域,U-Net被用于波前校正和散射成像等任务。U-Net的优异性能是由于其采样和跳接两种特殊的结构。通过多次下采样和上采样获得目标不同尺度的特征,通过跳跃连接融合多尺度特征。
(5)提出了一种基于多尺度特征融合的鲁棒全光学深度学习框架—多尺度衍射U-Net (MDUNet),通过引入采样和跳跃连接实现多尺度特征提取和融合。
2. Modeling methods and parameters(建模方法和参数)
相位调制和幅度调制通过多个无源衍射层独立实现。每个神经元产生一个次级波源,每层像素级调制的光被视为向前传播的新的衍射光源,如图1(a)所示。

每一层的神经元通过远场瑞利-索末菲衍射方程的自由空间波传播与相邻层的神经元相连:
其中:
在位置(xi,yi,zi)处,输出
其中:
ai(xi,yi,zi)为振幅系数,φi(xi,yi,zi)为相位,在训练过程中:
MDUNet最特殊的架构是下采样-上采样模块(D-UM)和跳过连接(SC)。
D-UM通过改变无源衍射层像素的大小来执行下采样或上采样过程,如图1(b)所示。
在MDUNet中,不同尺度的特征被定义为不同尺度采样后的光场分布。由于光场可以通过干涉直接叠加,因此有可能在相应尺度上融合光学特征。利用不同尺度的采样模块获取目标的多尺度特征,可以提高网络性能。

对于SC,采用可训练的分裂比γ的分束器(BS:分束器(和反射器)可以用来融合相应尺度的特征)建立跳跃连接,通过反射器将光场汇聚到指定层。分裂比的变化范围为0-1。
如果γ为0,则入射信号完全通过跳跃连接反射传输。若γ为1,则入射信号完全通过主路径传输,即取消跳线连接。
在训练过程中,将根据反向传播算法对该参数进行优化。因此,BS为(t为透射,r为反射):
非线性层使用光折变晶体(铌酸锶钡SBN:60),光折变晶体的厚度可设为1mm,晶体上的电压可设为972 V,此时非线性材料的相位变化在0 ~ π之间,可表示为:
以一个7层MDUNet为例,其网络结构示意图如图1(c)所示。它由3对D-UMs和sc组成,最后一层衍射层用于提高结果的信噪比。考虑到高集成度要求,MDUNet的工作波长为785 nm。输入输出采用128 × 128像素的分辨率,最小像素尺寸设置为420 nm。

其他训练参数:
1、振幅调制限制在(0,1)
2、相位调制限制在(0,2 π)。
3、为了保证最大的能量传递效率,将调幅的初始值定义为1。
4、随机权重用于初始化相位调制的值。
5、分裂比γ的初始值设为1,训练间隔为0-1。
6、learning rate=0.001,batch size=8。
7、优化器:Adam
8、损失函数:交叉熵。
9、采样率设置为2。在下采样过程中,衍射层的像素分辨率降低到前一层的1/2,像素大小放大到2倍。相反,在上采样过程中,衍射层的单面像素分辨率扩大到前一层的2倍,像素大小减小到1/2。
3、Result
3.1MDUNet和D²NN的性能比较(在Minist与Fashion-MNIST上)

(a) MNIST, (b) Fashion-MNIST。(c)不同层次的MDUNet和D2NN的神经元数量。
(1)在网络层数相同的情况下,MDUNet的测试精度始终优于D²NN
(2)随着层数的增加,D²NN逐渐出现梯度消失和梯度爆炸的问题,导致最终分类精度下降。
(3)随着层数增加,MDUNet的神经元数量增量较小,训练参数也更少
3.2 D²NN与不同层的MDUNet的收敛比较

3.3

(1)尽管D-UMs中的衍射层被偏移,但MDUNet在一定范围内具有较高的鲁棒性。
(2)当偏移量继续增大时,精度将保持相对稳定,这是因为MDUNet网络在建立模型时考虑了对齐鲁棒性。
3.4 三种不同采样深度下测试层与相邻层之间的自相关和互相关曲线

(a)~(c) MDUNet:(a) 7层:第4层,(b) 9层:第5层,(c) 11层:第6层,(d) D²NN: 9层:第5层
(1)相关曲线在每个周期内呈线性变化
(2)自相关变化周期越大,衍射层移位导致的测试精度下降越慢
(3)当位错发生在周期边界时,自相关和互相关会发生突变,导致测试精度发生较大变化
(4)D²NN衍射层仅在单像素范围内具有空间相关性
3.5集成学习构建光电混合模型
进一步结合不同采样模型的优点,在全光神经网络MDUNet之后增加了加权投票。对5/7/9/11层的MDUNet测试结果根据测试精度进行加权投票,构建光电混合模型EL-MDUNet。

不同模型的权重分布采用以下定义:
式中,i为模型序号,K为权重调整系数, Acci为第 i 个模型的检验精度。
实验结果:将MNIST和Fashion-MNIST的盲检验准确率分别提高到99.06%和89.86%。

(a): MNIST, (b): Fashion-MNIST。
4、Conclusion
(1)提出了一种具有深度扩展和对齐鲁棒性的全光神经网络结构MDUNet。
(2)成功在D²NN中引入了下采样和上采样模块,直接提高了层与层之间的对齐鲁棒性,从模型构建的角度降低了对神经元数量的要求。
(3)该网络能够有效地提取和融合不同尺度的目标特征,并通过采样操作增强了调制层的空间相关性。
(4)通过引入跳跃式连接,融合相应尺度的特征,可以有效地扩大网络深度。