基于单光子计数SPAD相机的汽车三维视觉
摘要
我们提出了一种用于汽车应用的光学三维测距相机,该相机仅需1.5 W的808 nm主动照明,即可在高达45米的距离上实现厘米级深度分辨率的40° × 20°视场角。我们开发的核心技术基于一个包含 64 × 32像素的互补金属氧化物半导体成像芯片,每个像素均集成了单光子雪崩二极管(SPAD)和三个9位数字计数器,能够对激光照明器发射、经场景中物体反射后并由相机探测到的单个光子进行锁相飞行时间计算。得益于单光子雪崩二极管的单光子灵敏度以及智能的像素内处理,该相机在高帧率和极低光照条件下均能实现最先进技术性能,且无需扫描,并具备全局快门优势。此外,该互补金属氧化物半导体工艺已通过汽车级认证。
索引术语
三维测距,二维成像,单光子雪崩二极管(SPADs),飞行时间(ToF),测距。
一、引言
THREE-DIMENSIONAL (3‐D) 视觉系统和目标检测在汽车领域的需求日益增长,旨在减少道路交通事故并提供更好的驾驶体验[1]。因此,在过去十年中,得益于微控制器单元的进步以及多种传感器技术的低成本和广泛可用性,全球汽车行业见证了新型控制策略的普及,例如电子稳定控制系统、后视摄像头、基于视觉的行人检测系统、车道偏离预警系统、夜视系统、电子泊车辅助、盲点检测、自适应巡航控制和先进前照灯系统。所有这些传感器均属于高级驾驶辅助系统(ADAS)的一部分,该系统旨在协助驾驶的各个方面(包括安全性、可操作性和燃油经济性)。
最先进的用于减少道路交通事故的高级驾驶辅助系统(ADAS)技术是碰撞避免系统(CAS),该系统通常采用雷达、激光雷达、超声波或基于相机的深度传感器。图1展示了CAS中通常所需的功能和探测范围,以及可能使用的传感器技术:每种传感器均具有同等重要性。
广泛应用于各种场景中,根据工作原理的不同,不同的传感器技术在测量特定物体参数方面往往表现出互补的优势。例如,雷达具有较长的探测范围,并且在恶劣天气条件下表现更佳。然而,雷达的视场角远比基于摄像头的系统窄,而基于摄像头的系统在检测和区分运动物体与静止物体方面则更为有效。参考文献[2]概述了当前可用的汽车传感器典型的优缺点:通过结合不同类型传感器(如雷达和摄像头系统)的优点,可以获得性能更优的传感器系统,这正是多传感器数据融合的概念。对于基于摄像头的3D视觉系统,可根据其原理分为两大类:立体视觉(SV)和飞行时间(TOF)。立体视觉系统无需活动部件或主动照明,可在低功耗下实现高空间分辨率。此外,在白天条件下,其性能通常优于飞行时间系统,因为强阳光增强了图像对比度,有助于3D重建;而在飞行时间系统中,强光通常会导致探测器饱和。然而,立体视觉系统将3D场景投影到二维传感器上时会造成空间信息压缩,并需要高对比度场景来识别点对的投影(对应问题)。此外,立体视觉还受到阴影和运动物体带来的问题影响,其深度分辨率由两个相机的光学布置决定,无法进行调节[3]。同时,提取正确距离信息需要大量处理,导致帧率非常低。最终,基于立体视觉的系统在复杂光照条件下会提供模糊的距离测量结果,因而并不理想。
在汽车应用中是最佳选择,尤其是在需要快速(高于标准视频速率)三维测距时。
主动三角测量方法不受阴影和移动物体的影响,但其主要缺点是需要昂贵且笨重的光源来生成结构光;此外,还需要机械解决方案将光图案投射到场景中,这使得系统对振动非常敏感,在汽车应用中难以使用[4]。
这些局限性通过飞行时间(ToF)相机得以克服,后者在过去十年中因其吸引人的特性而受到关注:ToF视觉系统由单个相机组成,该相机可包含成像仪和光源,并且由于深度测量较为直接——无需解决对应问题,且可进行像素内预处理——因此能够达到比标准视频速率系统更高的帧率。
最简单的飞行时间(TOF)技术称为直接飞行时间(dTOF),其原理是测量光脉冲从光源发射到物体并反射回光电探测器的往返飞行时间。通过已知的光速,将测得的延迟时间转换为距离。与模拟式dTOF传感器不同,我们的设想是采用一种“数字”单光子探测器,通过探测单个光量子以实现极致灵敏度,并提供皮秒级时间分辨率,从而在长距离上实现毫米级精度。早期基于单光子雪崩二极管(SPAD)的多像素测距仪通过使用定制集成工艺,将背照式SPAD晶圆键合到读出和处理电路上得以实现[5],该电路由 32 × 32个时间数字转换器(TDC)阵列组成。
此后,人们开发了其他方法,利用成本较低的单芯片标准 CMOS工艺制造集成片上TDCs [6]–[10]或时间‐幅度转换器(TACs)[11]的SPAD阵列。然而,TDC/TAC会产生大量原始数据,需要强大的计算能力和带宽来处理巨大的数据吞吐量。此外,典型的dTOF激光源(具有低抖动和亚纳秒脉冲宽度)体积庞大、成本高昂,且不适用于严苛的汽车环境。
我们考虑了一种替代方案,即间接飞行时间(iTOF)估计,其中距离信息是从发射至目标的脉冲光(PL)[12]或连续波(CW)[13]–[15]激励与其后向反射回波之间的相位延迟中提取的,类似于外差或零差解调。与 CMOS/CCD [16]和CMOS iTOF测距仪 [17],相比,单光子雪崩二极管阵列具有较低的填充因子,但其固有的时间分辨率更优(主要由SPAD时序抖动决定,通常低于一百皮秒)、精度更高(仅受光子散粒噪声影响)、线性度更好(不存在放大和量化非理想性)[13]。此外,像素内解调不仅能够计算深度图像,还能获取场景反射光实际光强度的信息;后者可用于增强图像分割并消除由相位卷绕引起的误差,从而扩展传感器的距离范围[18]。从这个意义上讲,iTOF测量相较于每光子提供的信息更多。
采用dTOF技术;此外,由于像素内解调降低了输出数据吞吐量和外部计算量,因此采集速度更高,从而满足传感器融合对最小化和透明数据传输的要求。另外,无需使用高带宽电子器件或窄脉冲宽度激光器,因而能够开发出真正高性价比系统。
本文提出了一种基于 64 × 32 CMOS单光子雪崩二极管成像器的面向汽车的相机,用于采用间接飞行时间法实现光学三维测距。该成像器不仅能够通过自由运行式光子计数提供二维强度信息,还能在像素内实现智能光解调和背景抑制,从而实现对场景中物体的三维深度分辨映射。
该相机旨在低光照环境下对快速变化(如形状、强度、距离等)的场景提供同步二维和三维视频。系统已在室内及真实交通场景中得到验证,实现了110 dB动态范围、高速(100帧每秒)深度测量,在40米距离上精度优于60厘米精度。
II. 脉冲光与连续波间接飞行时间
如前所述,iTOF测量可采用两种不同的技术:连续波间接飞行时间(CW‐iTOF)和脉冲光间接飞行时间( PL‐iTOF)。在本节中,我们首先分别讨论这两种技术,以便对整个距离范围内的理论精度进行数学分析。最后,我们对它们进行比较,以确定性能最优的技术,从而指导系统的设计与优化。
A. 脉冲式飞行时间间接测距
在PL‐iTOF系统中,激光源发射幅度为 A、持续时间为 TP的光脉冲,结合光速 c,该参数设定了最大距离范围为dMAX= TP · c/2。反射信号、背景光以及探测器噪声在三个不同的时间槽内进行积分(见图2)。在[19]中,我们展示了如何通过双采样技术(DST)提高精度,其中第一个窗口 W0与激光脉冲同步,第二个窗口W1与激光信号正交,分别累积反射光子的两部分,每部分均与物体的距离成正比;而第三个窗口 WB在无光脉冲发射时使能,仅收集背景光子。若 C0、C1和 CB分别为在 W0、 W1和 WB中累积的计数值,则物体的距离 d、接收到的主动光强度A R以及背景 B由[19]给出:
$$
d=\frac{c \cdot T_P}{2} \cdot \left(\frac{C_1 - C_B}{C_0 + C_1}\right)
$$
$$
A_R = \frac{C_0 + C_1 - 2 \cdot C_B}{T_P}
$$
$$
B = \frac{C_B}{T_P}
$$
如果距离测量重复 N次,通过对公式(1)应用误差传播规则,PL‐iTOF中的距离精度(σd,PL)由以下公式[19]给出:
$$
\sigma_{d,PL} = \frac{d_{MAX}}{\sqrt{A_R \cdot k_1(d) + B \cdot k_2(d)}} \cdot \frac{1}{\sqrt{N}}
$$
其中利用关系式 $d_{MAX}= c \cdot T_P/2$ 定义了 $k_1(d) = d/d_{MAX} - (d/d_{MAX})^2$ 和 $k_2(d) = 1 - 3 \cdot k_1(d)$ 系数。
B. 连续波间接飞行时间
在CW‐iTOF相机中,一个调制周期为 TP的正弦调制光源照射场景,反射光以相位偏移量Δϕ返回探测器。物体的距离 d通过以下公式计算:
$$
d = \frac{c \cdot T_P}{2} \cdot \frac{\Delta\phi}{2\pi} = d_{MAX} \cdot \frac{\Delta\phi}{2\pi}
$$
为了获取相位偏移信息,反射波通过四个相同持续时间的积分窗口 TTAP进行同步采样,从而提供 C0、 C1、 C2和 C3样本,如图3所示。通过离散傅里叶变换,相位延迟 Δϕ、反射光强度 AR和背景 B由[16]给出:
$$
\Delta\phi = \arctan\left(\frac{C_3 - C_1}{C_0 - C_2}\right)
$$
$$
A_R = \frac{\sqrt{(C_3 - C_1)^2 + (C_0 - C_2)^2}}{T_{TAP} \cdot \text{sinc}(\pi \cdot T_{TAP}/T_P)}
$$
$$
B = \frac{C_0 + C_1 + C_2 + C_3}{4 \cdot T_{TAP}} - \frac{A_R}{2}
$$
为了比较可通约的量, B和 A R 在PL‐iTOF和 CW‐iTOF中被同等定义: B是仅与调制无关信号相关的强度;AR 是入射到探测器上的调制信号的峰峰值强度。
现在我们可以应用误差传播规则应用于公式(5)和(6),从而得到CW‐iTOF精度, σd,CW:
$$
\sigma_{d,CW} = \frac{d_{MAX}}{A_R} \cdot \sqrt{\frac{A_R + 2 \cdot B}{N}} \cdot \frac{1}{2\pi \cdot F(x)}
$$
$$
x = \frac{T_{TAP}}{T_P}, \quad F(x) = \sqrt{x \cdot \text{sinc}(x)}
$$
其中, N是重复测量的次数, F(x)是一个考虑积分窗口持续时间对CW‐iTOF精度影响的因子。可以直观地解释为:较长的采样时间 TTAP会导致四个采样点的平均化,从而引起接收信号的衰减,进而降低测量精度;同时,较宽的 TTAP能够采集到更多的光子,从而提高精度。因此,可以找到一个最优的TTAP/TP比率,使 F(x)和精度最大化。
如图4所示,当 TTAP约为调制周期的40%时,达到该最佳点。我们在此要强调的是,在许多关于此主题的其他论文中(例如[13],[16]),公式(9)的表述未考虑因子 F(x),从而导致误差被低估。
C. iTOF技术比较
公式(4)和公式(9)表明,对于PL‐iTOF和CW‐iTOF两种技术而言,深度精度均依赖于距离范围(dMAX)、接收光强(A R)以及背景噪声( B)。然而,在假设 A R固定(即忽略由于立体角和物体反射率导致的反射信号衰减)并考虑背景为常数的情况下,CW‐iTOF的精度与距离无关,而 PL‐iTOF的精度则与距离相关。这与以下事实一致:在 CW‐iTOF中,无论反射目标的距离如何,整个回波光都被收集;相反,在PL‐iTOF中,所收集的信号是物体距离的函数。
事实上,在近距离时, W1 几乎无法收集到信号,因此信噪比非常差。但这一缺陷被W0 中收集到的信号所补偿,该信号几乎包含了全部反射光,因而具有较高的信噪比,从而实现精确的距离测量。类似地,在远距离情况下, W0 采集到的大信号弥补了 W1 所收集信息不足的问题。在中等距离时,信号被两个积分窗口均等地收集,因此两个信号的信噪比(SNR)相近且适中,无法实现补偿,导致距离误差较大。另一方面,在存在强背景的情况下,其较大的方差在整个距离范围的两端均占主导地位,而当两个积分窗口的信号背景比(SBR)[13]相同时(即在中等距离处),可实现最小的距离误差。
中报告的因子 F必须最大化。当TTAP/TP之间的比值接近40%时会发生这种情况。由于文中阐明的原因,我们选择使用25%的比值进行工作。)
图5显示了另一个差异:CW‐iTOF仅需一个周期(TP)即可完成一次完整测量,而PL‐iTOF则需要超过一个周期才能计算距离。因此,在相同平均功率下,PL‐iTOF需要更高的峰值功率或更长的积分时间。然而,即使在相同平均功率下,PL‐iTOF的精度不仅比CW‐iTOF的精度差,而且对背景和暗计数更为敏感,如图5所示。基于所有这些原因,我们设计了一款单光子雪崩二极管成像器,能够通过CW‐iTOF技术在像素级别处理二维强度数据和三维测距信息。
III. 三维视觉系统
我们的3D视觉系统基于CMOS单光子雪崩二极管成像器、用于设置、数据读出和数据上传至个人计算机(PC)的现场可编程门阵列(FPGA)板卡,以及激光二极管照明器,如下所述。
A. iTOF像素
图6展示了传感器的像素结构,其详细结构如[20],所示,包括一个单光子雪崩二极管探测器、淬灭电路、整形电子电路、三个9位计数器及其相应的存储器,以及用于驱动列数据总线的输出缓冲器。每个计数器的控制信号由外部现场可编程门阵列( FPGA)驱动,以在交错模式下正确工作,用于锁相iTOF解调,或在其他门控成像应用(例如荧光寿命成像(FLIM)、荧光相关光谱(FCS)[21],或门控受激发射损耗显微镜(gated STED)[22])中独立运行。这是通过适当的门控方案实现的;事实上,如公式(6)和(7)所示,为了计算相位偏移Δϕ和接收信号 A R ,并不需要知道全部四个不同的采样值(C0 、 C1 、 C2 和 C3 ),而只需要它们的差值(C3 − C1 和 C0 − C2)。此外,背景光强度B的计算仅需四个采样值之和(C0 +C1 + C2 + C3)。实际上,三个计数器中的一个始终处于使能状态,用于积分背景光并进行存储二维强度信息;其余两个9位双向计数器通过Direct引脚交替使能(EN),执行上下计数并累积差分计数。
在我们的实现中,我们将 TTAP/TP比率设置为25%:尽管该值并非最优选择(图4),但它仍能提供接近最佳值的精度,主要优势在于可在同一周期内实现四个分离的积分窗口,并在同一帧内累积四个样本而不会丢失任何入射光子,从而提高采集速度。此外,该选择得益于简化的像素内电子器件和时序管理,因为两个计数器仅由一个主时钟分频控制。与[15],中报道的结果相比,本实现具有明显优势,其中分别在四个独立帧中执行了每个长度为50% TP的独立门控积分,导致光子损失和整体采集时间更长。
在速度和精度方面,我们的方法也优于[13],,其像素内数字电路采用2选1多路复用器和两个8位计数器进行交错计数,需要两个读出帧。最后,得益于上下计数,我们实现了像素内的实时背景抑制,从而进一步扩展了计数范围。
B. 阵列芯片
该芯片由上述 64 × 32像素阵列、行列寻址电路、流水线多路复用器和全局电子电路[20]组成(工作原理和工作操作见图6)。寻址电路包括移位寄存器,用于实现像素数据的顺序寻址,多路复用器扫描列位线,而全局电子电路负责时钟管理、数据读出和阵列初始化。
读出操作在像素阵列的上下两端同时进行,以减少最小帧积分时间和列总线电容。得益于像素内存储器,阵列以完全并行方式工作:在每帧结束时,计数器累积的采样值被存储到三个像素内锁存器中,同时可以在读出前一帧的同时开始采集下一帧(全局快门读出)。因此,在快速场景下,即使存在快速移动物体,所获取的图像不会发生形变(jello effect)或产生运动伪影。
、荧光相关光谱(FCS) [21],或门控受激发射损耗显微镜(gated STED)[22]等生物应用)。)
C. 相机
为了操作单光子雪崩二极管传感器芯片,我们开发了一个完整的高速相机模块,该模块结合了单光子雪崩二极管阵列芯片、可编程电子器件、光学器件和软件接口,如图7所示。
系统电子器件包括一个小型封装(75 mm ×50 mm × 16 mm)的奥帕凯利(OpalKelly)XEM3010板卡[23],该板卡采用赛灵思(Xilinx)的FPGA模块(Spartan‐3, XC3S1500‐4FG320),用于管理输入/输出时序并处理来自芯片的数据;一个高速USB 2.0接口(Cypress FX2LP— CY68013A),可实现预处理数据向远程PC的快速传输;以及一片32 MiB 16位宽SDRAM(美光MT48LC1‐6M16),支持高速(10万帧每秒)成像。成像芯片通过板上芯片(COB)封装方式直接键合在第二块背置电路板上,这种结构带来多项优势,例如更高的设计灵活性、更简化的制造工艺、更高效的散热性能,以及相比标准或定制封装更小的电路板空间,同时避免了标准或定制封装带来的成本上升问题。第二块电路板上还集成了两个DC/DC转换器,分别用于通过 USB连接生成片上电子器件所需的电源(VARRAY ,3.3 V)和 SPAD探测器所需的电源(VSPAD ,31 V),以及一个用于设置淬灭保持时间(VHOLD )[20]的数字电位器。
我们还开发了一种混合模拟/数字电路,包括数模转换器(DAC)、电流‐电压转换器、差分转单端放大器和可变增益级,以实现直接数字合成器(DDS),从而为光源提供任意模拟波形调制。
该相机安装在坚固的铝制外壳中,配备一个12毫米f/1.4 C型接口成像镜头,其视场角约为 40° × 20°(H× V)。整个系统非常坚固且紧凑,尺寸为80 mm × 70 mm×45 mm,功耗约1瓦,主要由现场可编程门阵列(FPGA)板卡消耗( 240毫安),单光子雪崩二极管成像器的功耗可忽略不计( 10毫安)。
使用 MATLAB 接口来设置参数(例如帧持续时间、要采集的帧数、调制频率)以及进行数据采集和后处理。
D. 激光二极管照明器
如公式(9)所示,距离误差严格依赖于主动光强度;同时,眼睛安全危害、成本和功耗设定了其他限制。因此,光功率必须在这所有因素之间进行精确平衡。在本例中,我们设计了低功耗具有1.5 W光功率的照明光源,得益于我们的单光子雪崩二极管成像器极致的单光子灵敏度,能够在平均环境条件下提供良好的性能。事实上,如附录所示,1.5 W的平均光功率足以在超过40米的距离范围内进行测距,精度优于1米,同时确保眼睛安全(1类)。当然,可以定制更高功率的照明器或定制布局的激光源(例如沿车辆的散热器格栅、前大灯内部或前保险杠布置),以在更严苛的环境(例如直射阳光下或针对不透明的远距离物体)中实现更长的距离范围和更高的精度。
照明器(图8)采用基于电源板和五块激光驱动卡的模块化设计,每块驱动卡安装有3个激光二极管(LDs)。所选激光器型号(ADL‐80Y04TZ‐1)具有相对较低的阈值电流(45 mA)、高斜率效率,以及在808 nm波长下200 mW的连续波峰值功率,因此十五个二极管可实现总光学峰值功率3瓦特。此外,所选LDs具有高工作温度(50 ◦C)和小型TO‐18封装,这减少了寄生电容并提高了调制性能。
选用IC‐Haus(IC‐HG)的驱动电路以高效调制激光发射。该驱动器能够通过明确定义的电流脉冲来切换激光器,频率高达200 MHz。每个通道的电流由相机提供的两个输入信号控制:使能信号(EN)用于开启和关闭激光器中的电流,而控制输入(CI)(CI)为模拟电压信号,用于调节LD电流。
还使用了温度保护电路、散热器和风扇,以降低并稳定整个照明器的温度。由于激光二极管的光束发散角( 40° × 8°)与约40° × 20°的所需视场角不匹配,我们采用了 Luminit公司的光束扩散片,即具有圆形 25°发散角的 LSD(光束整形扩散器),以实现 47° × 26°视场角。
基于单光子计数SPAD相机的汽车三维视觉
IV. 系统表征
A. 光学组件
我们对光源进行了初步表征。每个激光二极管在最大电流225 mA下工作,对应的发射峰值功率为200 mW。通过调制产生了一个低失真正弦波,LDs在其I‐V曲线的线性范围内。事实上,光源的谐波含量备受关注,因为虽然连续波技术会抑制偶次谐波,但奇次谐波会引起非线性误差[16]。
为了实验评估照明波形的质量,进行了时间相关单光子计数(TCSPC)采集,频率分别为5兆赫和8.333兆赫(具体原因将在后文说明)。图9显示了测量波形的快速傅里叶变换(FFT)及其相对功率谱密度:在较低调制频率(5兆赫)下,三次谐波功率比基波频率低40 dB;对于8.333兆赫调制,该值略高(35 dB),其频谱成分中还出现了五次和七次谐波,但其功率仍至少比基波低50 dB。
图9中的曲线显示,光波形具有接近于1的调制对比度(cm),对于纯正弦函数,其定义为直流值与基频幅度之比([24]):
$$
c_m = A_0 / A_{DC}
$$
为了理解该参数的重要性,让我们考虑无背景光的理想情况:如果调制对比度不是单位值,则会在光源处产生一个等于$A_{DC} - A_0 = A_{DC} \cdot (1 - c_m)$的背景。由于接收信号是发射光的复制品,按一个取决于物体反射率和距离的因子 k进行缩放,因此公式(9)可写为:
$$
\sigma_{d,CW} = \sigma_{d,ID} \cdot \sqrt{\frac{1 + c_m}{2 \cdot c_m}}
$$
因此,即使在没有背景光的理想情况下,随着调制对比度的降低,距离测量的精度也会下降。调制对比度可以通过考虑理想正弦波的功率(P_ID = −3 dB)与基频的测量功率(P_M,0)之间的关系来测量,两者均相对于直流分量的功率进行归一化:
$$
P_{M,0} = P_{ID} \cdot c_m^2 \Rightarrow c_m = \sqrt{P_{M,0} / P_{ID}} = 10^{(PSD - 3)/20}
$$
因此,我们在5兆赫下得到 $c_m = 97.7\%$,在8.333兆赫下得到 $c_m = 89.1\%$,与理想情况下为1的 $c_m$相比,对应的百分比精度损失分别为0.6%和3%。
最后,我们使用光谱仪(HR400)测量了每个激光器的发射光谱。照明光谱如图10所示,同时给出了 Thorlabs生产的两个带通滤光片的透射曲线:其中一个滤光片的中心波长为800 nm,带宽为40 nm(FB800‐40),另一个滤光片的中心波长为810 nm,带宽为10 nm(FB810‐10)。前者在信号波长范围内具有较高的透射效率(> 70%),但在770 nm至800 nm之间透射效率更高(80%),该波段仅收集背景光;相反,FB810‐10在阻挡背景光方面更有效,但同时也会滤除更多的激光功率。事实上,所考虑的滤光片中没有一个是最佳选择,在信号收集和背景抑制方面仍有很大的改进空间。尽管如此,我们仍决定使用FB800‐40,因为在我们的评估装置中它提供了最高的信噪比。
B. 测距仪的精度
如公式(9)所示,当距离范围增加时,标准偏差成比例增加,从而导致精度降低。因此,为了在不降低系统性能的情况下实现所需的40米距离范围,我们采用了双频连续波(DFCW)调制[25],[26],,即使用两个不同的调制频率采集两帧数据,从而将最大无模糊距离(dMAX)扩展至[25]:
$$
d_{MAX} = \frac{c}{2 \cdot |f_1 - f_2|}
$$
基本上,每个频率都会产生一组可能的物体位置(混叠),但只有在一个位置上两者才会一致。在该点,相对贡献可以通过相对调制频率和信号幅值进行加权[26]:
$$
d_{final} = d_1 \cdot \frac{A_1 \cdot f_1}{A_1 \cdot f_1 + A_2 \cdot f_2} + d_2 \cdot \frac{A_2 \cdot f_2}{A_1 \cdot f_1 + A_2 \cdot f_2}
$$
此处的关键优势在于可以使用更高的调制频率,这意味着更高的精度,同时仍能实现较长的距离范围。在本例中,所需的距离范围为40米,因此我们采用了DFCW技术,通过使用8.333兆赫(18米范围)和5兆赫(30米范围)的调制频率来实现45米的距离范围。
我们通过改变相机与目标板(80%反射率)之间的距离(2 – 40米)进行了静态测试。测量精度如图11所示:在较高频率下,最大非线性度为1米;而较低调制由于整体谐波含量较低(图9),其最大非线性度约为0.8米。
图12展示了获取的反射信号(AR)和背景强度(B),后者约为AR的6倍。尽管如此,在40米处,5 MHz调制的精度为90厘米,8.333MHz调制的精度为50厘米。虽然精度曲线呈现几乎线性的趋势,但由于场景[27]中的凹面引起的多次光反射,存在一些扰动。当根据公式(15)结合两种调制的信息时,最终精度优于60厘米。该值是通过对公式(15)应用误差传播规则从实际测量中推导得出的。
C. 多摄像头的影响
我们进行了一些测试,以研究相同摄像头之间的干扰情况,这种情况在普通交通场景中可能会发生。在这些测试中,我们在场景中放置了第二台相机(如图13所示),并以100帧每秒的速度采集了200帧图像。“单摄像头”表示参考条件,即仅使用主3D摄像头;在情况(a)中,两台摄像头从相似位置拍摄场景(如同一辆车超车另一辆车);在情况(b)中,两台摄像头几乎正对彼此(如同两辆迎面而来的车辆)。
与参考情况相比,情况(a)提供了更亮的背景图像,但主动光采集、距离测量和精度相当。另一方面,在情况(b)中,直接暴露于干扰性主动照明导致背景图像更亮,并在干扰照明器所在位置(右侧)引起饱和。尽管如此,主动光图像和距离图像显示出的差异可以忽略不计——除了明显显示干扰相机的存在外——且精度仅受到轻微影响。
这种对来自其他相机干扰的抑制源于以下事实:不同相机的时钟虽然以相同的标称频率运行,但彼此之间并不相关。因此,干扰照明表现为一种共模信号,该信号通过每个像素内的上下计数器执行的零差解调而被抵消。由于距离和幅度信息与上下计数器中的内容相关,因此相关数据不会受到误差的影响(不包括那些因饱和而导致无法正确解调的像素,仅在这些像素中会影响测量)。最后,情况(b)中精度略微下降的原因可由公式(9)解释:在情况(a)中,干扰照明仅引起轻微的背景增加,因此对测量重复性的影响可忽略不计。相反,在情况(b)中,干扰照明显著增加了总的背景光,从而降低了精度。
所预测的那样下降。)
V. 户外测试
为了评估单光子雪崩二极管相机的正常工作,将整个系统(单光子雪崩二极管相机和照明光源)安装在一辆汽车上,如图14所示,同时配备了一台标准运动相机(GoPro Hero3)用于配准。由于当前大多数挡风玻璃都包含一层反射材料薄膜,会阻挡红外辐射以确保座舱气候舒适性,因此无法进行车内安装。当然,在定制安装时,可以在照明器和相机前方的小型光学窗口处去除该薄膜,如[3]所示。所有测量均在11月至1月期间的下午和傍晚时段进行,包括在恶劣(有雾和小雨)天气条件下。
第一个测试场景是一个地下停车场,在这里我们可以轻松验证照明功率是否足以充分照亮最远达40米的目标。该场景中的一个三维帧和一幅RGB图像如图15所示,其中显示了场景中所有目标——一名行人(距离7米)以及位于不同距离的多个柱子以及位于41米处的远处墙壁——均被清晰且准确地测距,无明显混叠误差。作为第二步,我们进入真实交通场景:图16显示了配准的真实场景以及以100帧每秒(即10毫秒帧时间)采集的三维视频中电车经过的一帧,此时汽车正在左转。iTOF相机的2048像素分辨率足以区分电车与其他车辆(例如汽车或卡车),并通过进一步的后处理[18]轻松检测。
图17显示了另一个场景,其中我们的三维系统清晰地检测并测距了不同物体:一辆快速移动车辆从相机附近(5米)驶过;在背景中,有一棵树(16米)、一根混凝土柱(23米),以及附近(22米)停在停车场道闸前的行人。根据横穿车辆在连续帧之间的位移估算,其速度为40公里/小时。由于测试车以城市限速(50公里/小时)行驶,因此记录了不同视频。
在图18中,使用10毫秒积分时间获得的三维帧显示检测到一辆厢式货车——该厢式货车在前方18米处以与测试车相同的速度行驶,且三维相机能够获取距离约9.5米的斑马线的距离,以及位于11.5米处的狭窄(约25厘米厚)路灯杆。
最终,图19展示了以100帧每秒拍摄的三维视频中的若干帧:在第一帧中,一辆汽车(红色,距离5米)驶入一条车道,另一辆汽车(橙色,距离9.5米)正在该车道行驶,同时第三辆汽车(黄橙色,距离12米)正在停车。此外,还从同一段三维视频中截取了另外六帧:两名行人穿过街道,朝向一辆停着的汽车走去(左上角帧);随后一辆汽车从左向右驶过;最后,第三辆汽车从右向左进入视场角(右下角帧)。由于帧率是每100帧取一帧,因此第二辆汽车的速度估计为6 km/h。
从之前的图片可以看出,照明系统能够均匀地照亮场景,且无阴影区域;尽管相机分辨率仅限于2048像素,但通过整合单光子雪崩二极管传感器提供的所有信息,仍能生成细节丰富的图像,从而可通过实时图像处理轻松定位和识别场景中的物体。一个展示汽车用三维单光子雪崩二极管相机全部潜力的视频可在此处查看[35]。
六、与其他三维测距仪的比较
表I展示了与当前市场上可公开获取数据手册的测距仪的对比。只有大陆集团产品适用于汽车应用,而其他厂商的相机主要针对室内或游戏应用设计。由于距离精度取决于每帧内获取的光子数量,各相机的性能受多种系统参数(像素数量、照明功率、光学器件、背景、距离范围、探测器效率等)影响,因此进行一对一比较并不容易——因为许多参数未知——甚至可能不公平。相较于其他现成成像仪,研发的三维SPAD相机像素数较低,但其他相机可以主要处理室内场景或短距离室外场景,而单光子雪崩二极管相机则应对截然不同的环境光照条件,包括室内和室外。
我们还在直接33,000勒克斯光照下测试了该相机:在100帧每秒的情况下,单光子雪崩二极管相机仍能在5米距离处定位到行人;而在更远距离时,返回的主动照明信号被背景淹没(背景光子数量是反射光子的250倍)。如第三节‐D和附录中所述,通过根据客户规格和其他汽车约束优化定制激光器在车辆上的布局,以及提高照明功率,可以在阳光直射和更严苛的环境条件下实现更优性能。
40° × 20°的视场角与其他产品相当或更低,但在评估时应考虑完整的距离范围。在低环境光条件下,我们的距离范围可达40米,而其他测距仪的最大距离范围为10 – 13.5米。
最后,同时采集2D强度视频和三维视频是本单光子雪崩二极管相机的另一大优势和创新之处,结合达到最高帧率(100帧每秒)以及在40米距离上实现的60厘米精度。其功耗是已报道中最低的之一,尤其考虑到工作帧率和覆盖达40米范围的较宽视场角,这一表现尤为突出。在如本文所报告的平均光照条件下,整个相机通过5伏特USB 2.0接口消耗的电流约为200 mA(即1瓦特),此外照明器还需额外消耗3瓦特。
七、结论
我们提出了一种基于单光子雪崩二极管(SPAD)探测器阵列芯片的三维视觉系统,该芯片采用经济高效的0.35 μm汽车认证高压CMOS技术制造。由于SPAD探测器能够检测和计数近红外单光子,主动照明器可被设计为输出功率非常低的对眼睛安全的光。64×32单光子雪崩二极管成像器的每个像素都可以通过间接飞行时间测量获取观测场景中的三维信息,即通过在与主动照明同步的时间槽中对光子进行计数来实现,该照明可以是脉冲式(PL‐iTOF)或连续波(CW‐iTOF),尽管我们已证明CW‐iTOF表现出更优的性能。
我们在低环境光条件下,于真实的室外汽车场景中验证了该三维相机,获得了距离最远达41米的物体的三维地图,在 40° × 20°视场范围内,最远距离处的精度优于1米。我们还在直射阳光下使用了该三维系统,能够在短距离(约5米)处识别出行人。因此,结合所提出的低功率(1.5 W光学平均)照明器,该相机已被证明是适用于室内环境(如机器人驱动的工业车辆)以及弱背景光条件(即非强阳光照射)下的户外应用中的车辆自动化可行系统,尤其在低环境光条件下表现更佳。为了将其适用性扩展至所有车辆应用,需对照明器进行适当的定制功率、视觉视场角、特定车辆上的激光器布局以及工作波长是必需的,以匹配目标应用。
最后,我们将基于SPAD的三维系统与其他商用产品在性能和优势方面进行了比较,其中大多数产品并不适用于汽车应用。未来,我们设想进一步开发以提升相机功能和性能。例如,将在现场可编程门阵列(FPGA)中实现物体识别,从而构建一个能够通过CAN总线通信的真正独立系统,满足碰撞缓解系统的功能需求。
| 表I 与现成三维相机的比较 |
|---|
|
767

被折叠的 条评论
为什么被折叠?



