基于数字微镜器件投影仪的色彩量化与亮度优化
摘要
使用数字微镜器件(DMD)的投影仪广泛应用于消费电子领域。DMD可在开和关状态之间切换,光被反射后将二值图像投射到屏幕。通过快速切换24位二值图像可表示全彩图像。为了提高帧率,需要加快DMD切换速度,但由于DMD的机械约束限制了切换时间,这具有挑战性。一种解决方案是减少表示全彩图像所需的二值图像数量。本文提出了一种优化色彩量化和发光二极管(LED)亮度的框架。通过使用投影仪和互补金属氧化物半导体(CMOS)相机构建的系统进行了评估。实验结果表明,与先前模型相比,提出的方法使投影图像的总亮度提高了约122%,并产生了更优的图像质量。
索引词
数字微镜器件,投影仪,量化,成像系统。
I. 引言
使用数字微镜器件(DMD)的投影仪广泛应用于消费电子[1]。图1展示了基于DMD的投影仪成像机制。每个微镜在两个角度位置(‐12°和+12°)之间机械地切换开和关状态。开和关状态对应于二值图像中的像素。DMD的表面由铝制成,能够很好地反射光。DMD中的一个微镜大约10微米宽;对于1024 × 768像素XGA分辨率,DMD拥有80万个微镜。每个DMD都有一个互补金属氧化物半导体(CMOS)内存单元,用于保持状态(逻辑0或1)[2]。红绿蓝(RGB)发光二极管(LED)的光源被DMD反射,并将二值图像显示在屏幕。二值图像图案的快速切换产生全彩图像。在早期的研究中,白光灯和彩色盘被用作替代光源[3]。
基于DMD的投影仪具有多项优势。由于DMD由硅制成,因此降低了成本。DMD响应速度快,且具有较小的DMD孔径比,这意味着更高的亮度。因此,基于DMD的投影仪不仅用于视频系统,还用于基于结构图案的三维主动立体测量与重建[4], 3、采用主动快门的D显示系统,以及多视角3D显示器等虚拟现实显示系统[5]。
通用视频处理以60帧每秒的速度对每幅24位真彩色图像投影24个二值图案。为了在特殊情况下(如3D显示器或多视角系统)提高帧率,必须减少比特数,因为DMD切换速度受到DMD机械结构和图像数据传输带宽的限制[2]。此外,投影仪提供的总亮度也是一个重要因素。亮度取决于LED照明图案。分时3D显示(如主动快门式)会使图像变暗。由于减少图像的比特数会产生量化误差,因此需要通过最小化量化误差并最大化总亮度来减少二值图案数量。此前已有大量关于色彩量化的研究[6]‐[11]。然而,由于独特的机械结构,尚未有关于低比特DMD成像的研究。
本文其余部分组织如下。第二节使用低比特量化和LED模式建立基于DMD的投影仪的成像模型,
II. 基于DMD的成像公式
输入的24位真彩色图像I(x, y)被降为三个n比特图像IC(x, y),即每个通道(R,G,B)具有n比特。每个图像具有2^n像素值,其中心值(量化值)定义为qi_C (i = 1,2,…,2^n)。图2展示了基于DMD的投影仪的彩色成像机制。通过快速投影单色二值图像(红、绿、蓝)来显示彩色图像。在上述模型中,数字微镜器件以固定的时间步 切换,并控制光强。
A. n位量化值的表示
量化值qi_C由LED光强决定。通常情况下,LED脉冲宽度控制光强度(PWM:脉宽调制)。为了表示一个n位图像,需要n个脉冲宽度L1C, L2C,…,LnC。量化值qiC定义为
$$
q_{iC} = \mathbf{F}_i \cdot \mathbf{L}_C T \quad (i = 1,2,\ldots,n)
$$
其中Fi是一个索引为i的二进制位向量,其定义为
$$
\mathbf{F}
1 = [0,0,\ldots,0], \mathbf{F}_2 = [0,0,\ldots,1], \ldots, \mathbf{F}
{2^n} = [1,1,\ldots,1]
$$
然后,CL被推导为
$$
\mathbf{L}
C = [L
{1C}, L_{2C}, \ldots, L_{nC}]^T
$$
其中LiC通过LiC进行归一化和四舍五入:= round(LiC/r),以表示8位像素值(0–255),因为L表示物理值。此处,变换系数r定义为
$$
r = \frac{T}{L_{C,\text{max}}}
$$
这里,LC按降序排列:LC_1 > LC_2 > … > LC_n。例如,在n位的标准分段中,L = [85, 170]^T,2-bit,L。然后,像素值可以表示四个值:{qC1, qC2, qC3, qC4}={0, 85, 170, 255}。
A. 图像量化模型
像素值p通过使用量化器QC进行量化,如下所示:
$$
Q_C(p) = \arg\min_i |p - q_{iC}|^2
$$
像素QC(p)实际上是通过选择像素集{qiC}中与p最近邻的点来计算的。为了提高效率,在给出{qiC}后,会构建一个查找表LT[p]= QC(p)。然后,QC(p)可以从该查找表中直接查得。通过应用量化器,量化后的图像ICQ(x, y)被定义为
$$
I_{CQ}(x, y) = Q_C(I_C(x, y))
$$
并且二值化图案图像BC_i(x, y)可以从ICQ(x, y)获得。然后,ICQ(x, y)也可以用BC_i(x, y)表示如下:
$$
I_{CQ}(x, y) = \sum_{i=1}^{n} B_{C_i}(x, y) \cdot L_{iC}
$$
基于DMD的成像转换总结如下。问题:给定全彩图像输入I(x, y)、DMD切换时序T和目标比特数n,确定最优CL和二值图案,(yxB_C_i。
和二值图案的时序图。必须计算最优的Li_C和图案Bi_C。)
和(b)规则分割LT。量化误差与总亮度之间存在权衡。)
III. 基于总亮度模型的色彩量化
A. 成本函数
为了处理投影图像的亮度问题,定义了以下成本函数:
$$
E = \sum_{C \in {R,G,B}} \left[ \frac{1}{WH} \sum_{x,y} e_C^2(I_C(x,y)) + w_L L_{\text{max}} \sum_i L_{iC} \right]
$$
这里,W和H表示图像IC的维度,而eC是定义的量化误差函数
$$
e_C(p) = p - Q_C(p)
$$
公式(7)中的第一项用于评估图像的量化误差;第二项用于评估投影图像在屏幕上的亮度。wL是第二项的控制参数。为方便起见,如果使用图像IC的直方图hC(p),则公式(7)中的成本函数可以重写为
$$
E = \sum_{C \in {R,G,B}} \left[ \sum_{p=0}^{255} e_C^2(p) h_C(p) + w_L L_{\text{max}} \sum_i L_{iC} \right]
$$
为了通过第三节.C中描述的量化和误差传播来抑制高像素值的饱和,定义了成本函数如下:
$$
E’ = \sum_{C \in {R,G,B}} \left[ \sum_{p=0}^{q_{C,2^n}} e_C^2(p) h_C(p) + w_s \sum_{p=q_{C,2^n}+1}^{255} e_C^2(p) h_C(p) + w_L L_{\text{max}} \sum_i L_{iC} \right]
$$
这里,ws是第二项的控制参数,而$q_{C,2^n}$由公式(1)中$i=2^n$的最后一个元素给出。为了最小化成本函数E’, CL以及,(yxB_C_i,需要确定这些参数。
注意,如果公式(7)中的wL= 0 ,则可以将传统的迭代Lloyd‐Max算法[12]应用于提出的优化问题。然而,该算法无法应用于所提出的模型。由于组合优化的原因,最小化该问题较为困难,因此可采用粒子群优化(PSO)方法[13]来求解CL和,(yxB_C_i。此优化可在离线过程中进行。输入帧的二值图案可通过使用预先计算的CL来计算。
B. PSO算法
为了优化公式(10),采用了PSO算法。PSO是一种计算方法,通过迭代优化成本函数来改进候选解。优化的解定义为$\mathbf{z} = [\mathbf{L}
R, \mathbf{L}_G, \mathbf{L}_B]^T \in \mathbb{R}^{3n}$,称为“粒子”。
因此,最优解由$\mathbf{z}^* = \arg\min E’(\mathbf{z})$给出。在PSO算法中,使用多个粒子$\mathbf{z}_1, \mathbf{z}_2, …, \mathbf{z}_m$。其中,m为粒子数量。每个粒子zi具有速度$\mathbf{v}_i = [v
{i1}, v_{i2}, \ldots, v_{i,3n}]^T$。然后,粒子按如下方式更新:
$$
\mathbf{z}_i^{t+1} = \mathbf{z}_i^t + \mathbf{v}_i^{t+1}
$$
$$
\mathbf{v}
i^{t+1} = \omega_0 \mathbf{v}_i^t + \omega_1 \text{rand}(\mathbf{z}
{\text{pbest},i}^t - \mathbf{z}
i^t) + \omega_2 \text{rand}(\mathbf{z}
{\text{gbest}}^t - \mathbf{z}_i^t)
$$
这里,rand是一个范围为[0, 1]的均匀随机值;ω0、ω1和ω2是控制参数;而t是时间步。
zpbest,i^t是粒子所给出的最佳解
$$
\mathbf{z}
{\text{pbest},i}^t = \arg\min
{\mathbf{z}’} E’(\mathbf{z}’) \quad \text{s.t.} \quad t’ \leq t
$$
zgbest^t是全局群的最佳已知解,由以下给出
$$
\mathbf{z}
{\text{gbest}}^t = \arg\min_i E’(\mathbf{z}
{\text{pbest},i}^t)
$$
在优化过程中,给定粒子数量m和最大迭代次数tmax,并随机生成初始粒子z_i^0及其速度v_i^0。然后,粒子根据公式(11)进行迭代更新,直到时间步t达到tmax。
通过PSO迭代,成本函数E′可以逐渐减小。在E′收敛后,可以确定最小量化误差和最大总亮度。
C. 预处理
经过公式(5)的量化后,24位真彩色图像被转换为3n位图像。每个通道的像素具有值qi_C(i = 1, … , 2^n)。类似于先前减少量化误差的方法,误差传播算法可以成为强大的工具[8]。这些算法可通过将量化误差有效地传播到局部邻域像素,在给定的量化级qi_C下对图像进行量化。在本研究中,斯特基算法[9]被应用于IC。在此过程中,eC(x, y)处的量化误差按如下方式传播至邻域像素:
$$
I_C(i+x, j+y) \leftarrow I_C(i+x, j+y) + w_{st}(x,y) \cdot e_C(x,y)
$$
这里,wst是权重掩模。斯特基算法使用如图4所示的掩模。
该算法可从左上角像素到右下角像素进行光栅扫描;权重掩模不涉及过去的像素。因此,该算法可在一次遍历中高效完成处理。
按给定权重传播到相邻像素。)
IV. 仿真结果
提出的方法被应用于来自USC‐SIPI图像数据库的六幅24位全彩512 × 512像素图像[14]。所评估的六幅图像分别为椒盐、莱娜、猴子、湖、女孩和飞溅。由于女孩的原始尺寸为256 × 256像素,因此使用双三次插值将其调整为512 × 512像素。每个RGB通道采用目标比特数n= 2。成像共使用6比特,权重参数ws设置为10.0。最终生成了六幅二值图案图像Bi_C。6比特表示可在240帧每秒下显示单幅图像。为了评估该方法在亮度控制方面的有效性,采用了不同的wL值:0.0、10.0和100.0。然后根据以下两个标准对实验结果进行评估。
A. 准则1:图像质量
为了根据人眼视觉特性评估图像质量,采用了与以往半色调工作相同的方式进行平滑滤波[7]。IC的滤波图像记为ÎC,均方根误差(RMSE)定义为
$$
\text{RMSE} = \sqrt{\frac{1}{WH} \sum_{x,y} (\hat{I}
C(x,y) - I
{CQ}(x,y))^2}
$$
因此,峰值信噪比(PSNR)为
$$
\text{PSNR} = 20 \log_{10} \left( \frac{255}{\text{RMSE}} \right) \quad [\text{dB}]
$$
B. 准则2:亮度
LED脉冲的占空比di_C由以下公式给出
$$
d_{iC} = \frac{L_{iC}}{L_{\text{max}}} = \frac{L_{iC}}{T}
$$
因此,脉冲宽度Li_C可以按如下方式获得:
$$
L_{iC} = d_{iC} \cdot T
$$
因此,总亮度由using
$$
L_{\text{total}} = \sum_i L_{iC}
$$
C. 结果与讨论
表I显示了莱娜图像在不同权重参数wL= 0、10和100下的结果。“无优化”值是通过使用传统标准间隔(图3(a))得出的,例如L1_C= 170和L2_C=85。这些间隔被用于商用基于DMD的投影仪[2]中。另一方面,粒子群优化(PSO)可将峰值信噪比从31.9分贝提高到33.7分贝,如表中左列所示。表中的亮度比由下式给出
$$
L_r = L_{\text{total}} / L_{\text{total}}^{\text{no opt}}
$$
这里,L_total^{no opt}是“无优化”情况下的结果。由于在公式(10)的成本函数中未考虑总亮度项,当wL= 0.0时,亮度比为0.89。当将wL设置为10.0和100.0后,亮度比分别提高至1.03和1.21。然而,将该值增加到wL= 100.0会导致峰值信噪比降低。图5显示了莱娜图像绿色分量的直方图以及量化值qi。图中的红线表示粒子群优化(PSO)的结果,黑点线表示“无优化”的结果。由于直方图的最大像素值约为230,因此为传统结果(无优化)设置q3= 255是不合适的。然而,使用粒子群优化(PSO)能够根据直方图稳定地选择量化值qi。
图6展示了粒子群优化(PSO)算法在不同权重参数wL= 0、10和100下的收敛情况。如图所示,对于所有图像和权重参数wL,成本函数在大约10次迭代内迅速收敛。PSO参数的粒子数量和迭代次数分别设置为m= 500和tmax = 200。计算时间约为200毫秒,使用的是3.4 GHz计算机,开发语言为C++。
表I 优化结果(莱娜)
| wL | 0.0 | 10.0 | 100.0 | 无优化 |
|---|---|---|---|---|
| LR1 | 155 | 134 | 110 | 170 |
| LR2 | 79 | 96 | 110 | 85 |
| LG1 | 130 | 130 | 110 | 170 |
| LG2 | 73 | 75 | 86 | 85 |
| LB1 | 114 | 114 | 110 | 170 |
| LB2 | 73 | 73 | 73 | 85 |
| 峰值信噪比 [分贝] | 33.7 | 33.6 | 31.8 | 31.9 |
| 亮度比 Lr | 0.89 | 1.03 | 1.21 | 1.00 |
表II 仿真结果:PSNR(亮度比)
| wL | 0.0 | 10.0 | 100.0 | 无优化 |
|---|---|---|---|---|
| 椒盐 | 33.9 (0.87) | 33.8 (1.00) | 31.6 (1.27) | 31.8 |
| 莱娜 | 33.7 (0.89) | 33.6 (1.03) | 31.8 (1.21) | 31.9 |
| 猴子 | 33.6 (0.96) | 33.4 (1.00) | 30.8 (1.27) | 32.5 |
| Lake | 33.3 (0.86) | 34.5 (0.96) | 31.3 (1.30) | 32.0 |
| Girl | 35.3 (0.87) | 35.4 (0.95) | 35.1 (1.26) | 34.3 |
| 飞溅 | 29.8 (0.88) | 31.3 (0.94) | 31.1 (1.25) | 31.4 |
表II列出了所有图像的获得结果。峰值信噪比和亮度比与“无优化”情况下的总亮度L_total^{no opt}进行了比较。所有图像的结果均表现出相似趋势。亮度比表示由“无优化”方法得到的亮度中L_total所占的比例。增加权重wL后,相较于先前方法(无优化),亮度比有所提高,尽管峰值信噪比略有下降。图7展示了莱娜图像优化后的6位二值图案以及合成的量化图像(“输出”)示例。图8显示了图7的局部放大图。如图8(a)所示,使用PSO算法相比先前方法能更好地保持与原始图像的相似性。
V. 评估系统
为了评估实际的投影图像,构建了一个投影仪和相机捕捉系统。图9显示了所构建的仪器,图10显示了原型数字信号处理(DSP)和LED驱动电路。图11显示了数字微镜器件的二维几何结构。该系统由基于DMD的投影仪、DSP单元、LED控制驱动器和CMOS相机组成。通过使用铝框牢固固定投影仪和相机,避免了投影图像与捕捉图像之间的错位。
DMD二值图案Bi_C被存储在基于DMD的投影仪的内存中,并以T = 762 μs的固定时序快速切换(1312帧每秒)。最大脉冲宽度为512和250 μs的LED被设置为机械地倾斜DMDs。DSP单元通过外部触发控制DMD的开关时序,并生成脉宽调制(PWM)信号发送给LED驱动器,以向CMOS相机发送快门触发信号。LED驱动器可提供约200毫安的电流驱动RGB‐LED,延迟小于1毫秒。DSP由20兆赫的外部晶体振荡器驱动,以实现稳定的定时。表III总结了仪器的规格。
获取的图案被投影到白色哑光屏幕上。投影光被屏幕散射后,由相机捕获。为了避免捕捉到投影仪直射光产生的光晕,相机被放置在投影仪上方并倾斜设置。相机的模数转换器(ADC)将每个像素的光强度转换为12位数字值。该扩散以及相机规格对应于仿真评估中使用的人眼视觉特性。因此,构建的系统评估了包含屏幕和相机规格在内的整体图像质量。
在实验中,使用了6位模式。这些模式通过提出的方法和参数wL= 0.0, 10.0, 100.0进行优化,然后与先前方法(无优化)在标准光分割下的结果进行比较(图3(a))。作为参考,投影并采集了原始的24位全彩模式,并将其与6位模式提供的图像进行比较。完成此过程后,评估了以下两个准则。
A. 准则1:图像质量
由于24位模式与6位模式之间的光强差异,难以使用公式(16)中的均方根误差。因此,计算了以下增益不变均方根误差:
$$
E_{\text{RMS}}’ = \min_\alpha \frac{1}{WH} \sum_{x,y} (f(x,y) - \alpha g(x,y))^2
$$
这里,f是待评估的捕获6位图像,g是捕获的24位参考图像,α可通过最小二乘法轻松计算得出。
B. 准则2:亮度
由于每个像素值表示物理光强度,因此总亮度按如下方式计算:
$$
L_{\text{total}} = \sum_{x,y} f(x,y)
$$
注意,公式(23)评估的是整幅图像的强度,而公式(20)仅评估光的脉冲宽度。
C. 采集设置
在本实验中,6位模式的快门速度(曝光时间)设置为73.1 ms,24位模式的快门速度设置为146.2 ms,后者用作参考。为了降低LED照明的方差,共采集了100张图像,并对其结果取平均值。由于24位模式生成的图像比6位模式生成的图像更暗,因此6位模式使用了两倍的快门速度。增益和偏移均设置为零,伽马校正被禁用,即γ= 1.0。
D. 结果与讨论
图12显示了由CMOS相机捕获的投影图像。由于DMD在图11中是对角线方向放置的,因此图像从一侧到另一侧被横向投影。图左侧的24位全彩图像尽管曝光时间较长,但由于标准分段的PWM产生了低比特的稀疏脉冲宽度,图像仍然较暗。例如,对于8位脉宽调制,照明使用了L8= T/128 ≈ 6 μs,而LED闪烁使用了T − L8= 756 μs。通过将图案从24比特减少到6比特,图像的总亮度得到了提升。此外,使用PSO算法获得的Bi和Li在保持峰值信噪比的同时显著提高了总亮度。当Lw= 10时,总亮度比提升至约1.2–1.4。如果可以接受峰值信噪比的下降,则与“无优化”结果相比,总亮度比可提升至1.5以上。
表IV提供了六幅图像的结果。提出的方法得到的峰值信噪比优于先前方法,先前方法使用了传统标准间隔L1_C = 170和L2_C =85。增加wL可改善亮度比。当给定wL = 10.0时,获得了122%的平均亮度,同时保持了峰值信噪比。
表IV 评估结果:PSNR(亮度比)
| wL | 0.0 | 10.0 | 100.0 | 无优化 |
|---|---|---|---|---|
| 椒盐 | 44.5 (1.09) | 44.3 (1.26) | 42.3 (1.70) | 45.3 |
| 莱娜 | 44.5 (1.10) | 44.1 (1.27) | 42.7 (1.55) | 44.7 |
| 猴子 | 44.7 (1.10) | 44.5 (1.15) | 41.1 (1.54) | 45.1 |
| Lake | 42.2 (1.00) | 41.9 (1.13) | 38.6 (1.60) | 42.2 |
| Girl | 43.3 (1.27) | 43.0 (1.44) | 40.8 (2.24) | 44.2 |
| 飞溅 | 44.5 (1.09) | 44.3 (1.07) | 40.0 (1.52) | 44.3 |
| 平均值 | 44.0 (1.09) | 43.7 (1.22) | 40.9 (1.69) | 44.3 |
与仿真结果相比,当wL= 10.0时,峰值信噪比并未下降,因为哑光屏幕和相机规格可能产生的模糊程度超过了人眼视觉特性所产生的模糊程度。
对于更实际的应用,例如视频序列,所提出的算法将实现在诸如现场可编程门阵列的嵌入式系统中。尽管当前算法大约需要200毫秒,但由于在视频序列中可以利用前一帧的粒子群优化的初始解,并且不需要对每一帧都进行解的更新,因此该时间可以显著减少。例如,在实际视频系统中,粒子群优化的更新步骤可以每5秒执行一次。
VI. 结论
为了设计一种考虑总亮度的基于DMD的投影仪色彩量化方法,提出了一种优化色彩量化和LED亮度的框架。首先进行了仿真实验评估,然后使用包含投影仪、数字信号处理器和CMOS相机的实际评估系统进行验证。两组实验结果均表明,与以往模型相比,所提出模型在保持图像质量的同时,将投影图像的总亮度提高了约1.2倍。
5

被折叠的 条评论
为什么被折叠?



