光学概念与成像原理

一、光学基本概念

  1.  光的属性与度量

        (1)光的属性:光是一种电磁波,具有波粒二相性;所以,物理学中常用“波长 & 能量” 来描述单一光的基本特性;自然界中的光都是不同频率的光混合而成。

           人眼会将不同频率的光,识别成不同的颜色;颜色是人类对光线的主观感觉之一;其他动物对光线的感觉与人类不一样。

图片

                  

图片

        (2)发光强度(光度):点光源在某一个方向上的发光强度,即发光体在单位时间内所射出的光的能量。常用单位:烛光(cd, 坎德拉)。发光总功率。

           1烛光的测量定义是:理想黑体在铂凝固点(1769摄氏度)时,黑体(球体,表面积为1m^2)发射出的光能量的60万分之一。

        (3)光通量:发光体所发出的能量中,能产生视觉的部分(人能感觉出来的辐射通量),称为光通量。常用单位:流明(Lumen, lm)。表示某个立体弧度内通过的发光功率。

                1流明的测量定义是:发光强度为1烛光的光源,在单位立体弧角内所通过的光能量。

                其中,单位立体弧角:球面角(steradian,  SR)是国际立体角的单位,一个4πR^2表面积的球(球面积)可以分成4π个立体单位弧度(即:立体弧度 = 球面积/R^2)。所以1个烛光(cd)功率的点光源发射的光通量为4π 流明。

             光通量值 = 4π * 发光光源的光强(总功率)/  发光的总立体弧度 *  接收面的立体弧度

             一般情况下,发光的总立体弧度是固定的,所以光通量值与发光强度成正比,与接收面的面积成正比,与接收面到发光体的距离的平方成反比

        (4)照度:被照物体单位受照面积上所接收到的光通量,单位为勒克斯(Lux, lx)。单位面积上接收到的功率。

                1 lux的测量定义是:距离发光强度为1烛光的发光体1米、与光线正交的1平方米表面积(球面积)上接收到的光通量(流明/m^2),所以也叫米烛光。

               照度值  = 接收面的光通量值 / 接收面的面积

              一般情况下,发光的总立体弧度是固定的,照度值与发光强度成正比,与接收面到发光体的距离的平方成反比。

        (5)亮度:每平方米上的烛光光度,单位为cd/m^2或尼特(nits)。单位面积上的发光功率。

        (6)投影机、灯具常用光通量单位流明(Lumen,  lm)来描述类点/点光源有效立体弧度内的发光功率,与总发光功率、发光弧度有关;家庭影院投影机,亮度基本都1000流明以上。

           电视、显示器等常用亮度单位尼特(nit)来描述面光源发光面上的亮度水平,与总发光功率、发光面积有关;目前很多手机的亮度都达到了400多尼特的水平。而用照度单位勒克斯(lux)来描述单位面积上接收到的发光功率。可以用照度计进行测量。例如室内灯光下的照度一般小于300lux,  而夏天太阳下室外达到6万-10万lux,没太阳时约1万lux.                       

图片

                                    

2.  颜色的学术解释

     颜色是人类对光线的主观感觉之一;其他动物对光线的感觉与人类不一样。人类的视网膜上有三种感知颜色的感光细胞,叫做视锥细胞,分别对不同波长的光线敏感,称为 L/M/S 型细胞。三种视锥细胞最敏感的波长分别是橙红色(长波,Long),绿色(中波,Medium),蓝色(短波,Short)。这三种视锥细胞对光谱的感光(响应)曲线如下:

图片

        理论上我们用三种颜色的光就可以混合出自然界中任何一种颜色来:C=r*R+g*G+b*B。科学家在实验中用三基色的光源调配出了看起来与各种波长的光线颜色一致的混合光,大致的实验方法是:把一个屏幕用不透光的挡板分割成两个区域,左边照射某个被测试的颜色的光线,这里记为 C (以下用大写字母表明颜色,用小写字母表明分量大小),右边同时用三种颜色的光同时照射,这里记为 R,G,B。然后,调节右边三种颜色光源的强度,直到左右两边的颜色看上去一样为止。

图片

CIE1931RGB色度系统:CIE通过实验,选取了700nm(R)546.1nm(G) ,435.8nm(B)三种波长的单色光作为三原色,来辅助合成其他颜色。

        在这一系列实验里,科学家们把左边的单一波长的光按照波长从低到高的顺序,挨个测试了一遍,得到了跟每个单一波长的光对应的三原色光的混合叠加比例,绘制出了“波长 & 三基色比例”的二维曲线,这就是色匹配函数(Color Matching Function),并且在这个基准下定义的色彩空间,就是 CIE RGB 色彩空间。下图是 CIE RGB 的色匹配函数曲线(深色表示多人/多个试验的平均值,浅色线表示不同人/不同试验的单次值)。1931年,CIE(国际发光照明委员会),Commission Internationale de L'Eclairage(法语) ,International Commission on Illumination(英语),制定了 CIE 1931 RGB标准,以及修正的CIE 1931 XYZ标准,以及简化的CIE 1931 xyY标准(对XYZ进行能量归一化,x+y+z=1, 只要知道xy,就可以算出z,并用xyY中的Y表示亮度)。

图片

         可以看到,曲线上出现了负数,表示对于这个波长的光线,右边三色光无论如何调节比例,都不能混合出左边的颜色,实验者只好在左边单波长光线中加入三基色分量,直到左右颜色看起来一致为止。左边增加基色分量,相当于右边减少基色分量,于是右边出现了负的基色。但负数在使用和计算上都有不方便,因此就对这个匹配函数进行了一下线性变换,变换到一个所有分量都是正的空间中。变换后的色彩空间就是 CIE XYZ 色彩空间。CIE RGB 色彩空间和 CIE XYZ 色彩空间是完全等价的,两者只是差了一个线性变换。色彩空间就是一个 3 维的线性空间,描述了人眼三原色感观神经(或其线性变换后的分量)对不同频率的光线的响应特性。

图片

         自然界本身是没有「颜色」这个属性的,只有对不同波长光线的反射率/透过率,人类的色视觉,相当于在自然界所有颜色的无穷维函数空间中取了一个三维的投影(基底),以便于量化人类对光线的感知规律。我们常说的色域空间,就是基于此理论的线性空间转换。但色彩空间并不是真正数学意义上的三维线性空间,数学中的「线性组合」在这里就要被替换为「锥组合」,也就是每个分量都必须是大于等于 0 的。好的基底不仅能表达的颜色更丰富,而且工程上也易于稳定地实现。

          对于 RGB 色彩空间来说,关键点在于两个:1. 如何选择三个作为基底的颜色;2. 如何定义白色。一旦选好这两个关键参数,那么从 CIE XYZ 空间到设备的 RGB 空间的转换就完全确定了。我们平时常说的 sRGB 空间和 Adobe RGB 空间,他们的区别就在于这两个关键参数的定义不同。不同的 RGB 空间能表示的范围如下图所示。同样的 RGB 分量数值,在不同的 RGB 空间中所代表的颜色是不一样的。所以我们在描述一个 RGB 颜色的时候,不仅需要描述它的 RGB 三个分量,还要说明是在哪个空间,这就是 ICC 文件的作用。色域空间中,一般把品红色的量定义为 X坐标轴、绿色的量定义为 Y 坐标轴、蓝色的量定义为 Z 坐标轴,并将三维空间投影到二维空间上(将CIE 1931 xyY的三维色域空间,映射到z=0的二维平面上),得到如下舌型CIE 1931色度图(舌型边缘曲线上的点都表示的是单色光谱,标注的数值表示的是该单色光的波长,红色波长长,紫色波长短),人眼可以感知的任何颜色都可以在该图上找到对应的坐标点。CIE 1931色度图中,xy的值都是归一化的比例值,白点的xy坐标位为(0.33,0.33)。

图片

      综上所述,人类对色彩的感知在实验层面满足线性性质,人眼感知的色彩空间是一个线性空间。当然,容易想见,通常我们选取的基底(比如 CIE XYZ 空间的色匹配函数),是不正交的。

3, 人眼对亮度的感知和gamma曲线

          人眼对颜色的感知是线性的,即R/G/B三原色按一定比例组合,不论光强度多少,在人眼看来就是同一颜色。

        但人眼对亮度的感觉是非线性的。韦伯定律指出:人眼感觉的亮度差别阈限随原来刺激量的变化而变化,而且表现为一定的规律性,用公式来表示,就是△Φ/Φ=C,其中Φ为原刺激量,△Φ为此时的差别阈限,C为常数,又称为韦伯率。简言之,就是让人眼产生单位亮度变化感觉(主观感受)所需的物理亮度变化量值(能量变化值)与当前实际物理亮度值(能量)的比是固定的。用数学表示即y = k * x^gamma, 是个幂函数,微分后得delta(y) = k* gamma * delta(x),其中y表示人眼感觉的亮度值,x表示实际物理光学上的亮度值。这就是gamma曲线的理论基础。通过试验证明,人眼的gamma系数为1/2.2。

                试验中发现,如果把人眼所能感受到的亮度/灰度差异,从全黑到全白连续按序归一化排列,则人眼所感受到的黑白坐标段(Y轴)的中点(y=0.5,中灰点),对应的不是自然界线性变化的黑白坐标段(X轴)的中点(x=0.5),而是x=0.218。通过试验,二者的关系曲线大体如下图所示,是一个幂函数,y=x^(1/2.2)。 

图片

图片

图片

        从上可以看出:人眼的灵敏度在暗区更灵敏,随亮度增强而逐渐减弱。在数字图像中,我们需要用数值来表示和保存亮度的采样值。如果我们对归一化亮度范围[0,1]进行均匀的密集采样,以满足人眼对暗区的灵敏度要求,则亮区用同样的采样密度会显得比较浪费(人眼灵敏度感受不出来相邻2个亮度数值之间的亮度差异)。所以,我们可以在暗区进行密集的细采样/表达,在亮区进行疏散的粗采样/表达,这样采样点会变少、表达值的个数会变少,从而实现”用少量数字范围来覆盖人眼所能感受到的亮度范围,且让人眼几乎感觉不到亮区的损失"的目标。打个比方,假如暗区和亮区都做密集采样需要1024个采样点/值(10bit),如果变为暗区密集采样而亮区疏散采样,则可能只需要256个采样点/值(8bit),从而大大节省保存一副图像所需的字节数,从而节省传输带宽和存储空间。为了达到这个非线性采样/表达的目的,可以在采样前或采样后,对信号/数值进行gamma曲线变换,拉伸敏感暗区对应的数值范围,压缩不敏感亮区对应的数值范围,线性的物理亮度信息转变为非线性的、满足人眼亮度变化感受的非线性值。也就是说,线性的物理信号被gamma曲线变换成了非线性的虚拟信号,这个非线性的虚拟信号对人眼感受来讲是线性的。gamma曲线,本质上是为了节省带宽和存储空间、结合人眼对亮度的感受特点(保留敏感信息,损失部分不敏感信息)而推出的。

       有gamma变换,就有gamma校正(逆变换),二者是成对出现在图像采集 & 显示系统中的。图像采集端使用gamma变换,光信号由物理线性变为物理非线性(变换曲线由系统选择的数字图像标准决定),然后由各种图像算法进行处理/保存/传输,最终送给图像显示端做gamma校正,恢复成物理线性的光信号,传递给人眼。gamma曲线是OETF/EOTF的一种

4, 光电转换函数(OETF,optical-electronic transfer function)与 电光转换函数(EOTF,  electronic-optical transfer function)

图片

        上图是典型的OETF & EOTF系统。camera子系统根据场景需要,通过sensor响应曲线 + 特定tuning响应曲线,将光信号转化为符合行业标准(SDR/HDR/HDR10/HDR10+等)的图像数据,保存或传输,这个转换过程称之为OETF。而在显示端,则需要根据图像数据的格式/行业标准信息,通过显示器的响应曲线 + 特定tuning响应曲线,将图像数据还原为人眼可以感受到的光线,这个转换过程称之为EOTF。

        OETF & EOTF的目标是:让人眼通过显示器看到的光线,要像人眼在相机镜头前看到的光线一样逼真。而图像数据的行业标准的目标是:任何一个相机采集保存下来的图像数据,都可以在任何一个显示器上真实还原原有的光线。实现时间、空间的跨越,且与设备无关。

 gamma曲线是最早的OETF/EOTF,供SDR图像标准使用。随着图像技术的发展,相应地在gamma曲线的基础上出现了越来越多、对人眼而言图像效果更好的OETF/EOTF标准。下表罗列了几种常用的图像标准,以及搭配的对应的色域标准、对应的OETF/EOTF标准.  高动态范围(HDR)常用 HLG曲线或PQ曲线。

  PQ (感知量化)曲线,基于人类视觉感知的特征,适合在互联网上制作电影或串流视频的内容,其中再现准确性是关键。

 HLG (混合对数伽玛)曲线,旨在允许在现有的SDR电视上显示HDR图像而不会有明显图像效果损失,适合于广播电视和直播视频。

图片

图片

普通gamma & HLG & PQ曲线的关系示意图,HLG & PQ能覆盖更宽的亮度范围。

5,   LDR(low dynamic range) & SDR(standard dynamic range) & HDR(High dynamic range)

下面4幅图分别描述了图像质量的5要素(图1),以及SDR在暗处(图2)和亮处(图3)的细节丢失,以及HDR(图4)在暗处和亮处的细节均衡。以便于大家理解HDR的优势。

图片

图片

图片

图片

 LDR:如果一个场景的动态范围小于影像系统的动态范围,则该场景称为LDR场景,此时需要对图像进行动态范围拉伸,以充分利用设备的动态范围。

SDR:如果一个场景的动态范围与影像系统的动态范围大致匹配,则该场景称为SDR场景。

HDR:如果一个场景的动态范围大于影像系统的动态范围,则该场景称为HDR场景。由于影像系统的动态范围不足,在图像捕捉过程中很有可能会发生钳位(clipping),如果是亮区发生饱和称为高光钳位(highlight clipping),如果是暗区发生钳位则称为阴影钳位(shadow clipping),在同一场景中两者可能会同时存在。

         典型自然场景的平均对比度为1:160;室外场景的对比度通常较大,很容易达到甚至超过1:1000;人眼感光细胞的自然动态范围大致是1:10000。

         人类为了能够在各种场景下都能够正常观察物体并分辨足够的细节,人的视觉系统进化出了多种机制以适应不同的光照条件。

         首先是瞳孔,它可以改变直径从而控制进入眼睛的光线多少,这是对全局光照强度的一种适应性机制。

         其次是视锥细胞可以根据视场(Field of View, FOV)上的平均光亮度(即视网膜照度)调节敏感度。

         最后,当目光注视某一小区域时,视觉系统会自动调节局部对比度。

         因此,尽管人类生活环境中的光照度变化可以达到12个数量级,从极弱星光的10^-6nits 到阳光直射的 10^6 nits,而人眼感光细胞的实际动态范围只有4个数量级就能够适应各种环境场景。

图片

         一般来说,标准显示设备的动态范围为1:100;一些新的LCD设备可以达到1:400;印刷品的动态范围通常为1:50~1:500;HDR10标准显示设备的动态范围至少要达到1:1000以上,更前沿的HDR显示设备动态范围可以高达1:25000。

         当真实场景的动态范围大于显示器的动态范围时,如果不做特殊的处理,超出动态范围的信号就会发生钳位。

         实际上,由于人类视觉对光照的绝对强度并不敏感,真正起作用的是可视区域内相邻局部之间的亮度对比。

         根据这个原理,人们可以在图像中过滤掉大部分由光源引起的背景亮度成分,只保留由材质引起的相对亮度成分,这样可以极大地压缩场景的动态范围,使图像在标准显示设备上也能取得与真实场景几乎相同的知觉。

二,CMOS成像原理

CMOS sensor IC主要电路:

图片

        每个像素都有独立的光电二极管用来捕捉光子并累积电子,但只有一个ADC转换器,分时复用;AD采样后,数据写入FIFO(line buffer)中保存,然后readout到MIPI总线上传送给接收端。

图片

               Global shutter:  所有行同时开始、同时结束曝光。即每行的曝光时长一样,起始和结束时刻也一样,每行都是同步的。

               Rolling shutter:  从第一行开始到最后一行依次间隔一小段时间开始曝光、结束时间也是依次间隔一小段时间。即每行的曝光时长是一样的,但起始和结束的时刻不一样,相邻两行存在相位差

Rolling shutter CMOS sensor IC曝光 & 数据时序:

图片

模组主要组成

图片

1.  sensor IC

        目前Sensor IC第一梯队主要集中在3个厂家,Sony,  Samsung,  OmniVison(OV,  豪威);除此之外,还有Hynix(海力士),gcoreinc(格科微),Cista(芯视达)等。

         一方面,为了获得更高的解析力,cmos sensor的分辨率在不停地提高,高端逐步从8M/12M/16M演进到32M/48M/50M/64M,甚至108M/200M。分辨率的增加导致需要传输和处理的数据量大增,所以,从16M开始,大多数sensor具有四合一或九合一的remosaic功能,在预览时工作在低分辨率模式,在强光拍照时才瞬间切换到高分辨率模式。

        另一方面,为了获得更好的暗光效果,单个像素的物理面积也在不停地增加。像素的增加 & 单个像素面积的增加,必然导致cmos芯片面积的增加(俗称底大一级压死人),以及镜头的增大 & 焦距的增大,进而导致模组高度的增加(根据1/f = 1/u + 1/v,在底增大而视场角不变的情况下,像距和焦距都会增大)。

图片

  2.  镜头

          手机上,由于模组可用的机械厚度空间有限,玻璃/塑料镜片组成的模组的焦距都是固定不变的,只能对焦,不能变焦。后续液态镜头的出现,可能会带来一定的变焦能力。几个不同光学焦距的摄像头组合,通过软件控制平滑切换,可以间接实现多焦段的不连续的光学变焦,在几个焦段之间辅以数字变焦,从而组合成连续的混合变焦,给人以连续变焦的体验。

         单反相机上,镜头空间范围大,可以通过移动凸透镜 & 凹凸镜之间的距离,形成组合式的、连续可变的光学焦距,集连续光学变焦 & 对焦于一身。

         镜头的作用:(1)塑料(Plastic)或玻璃(Glass)镜片,阻挡紫外光进入 + 凸透镜成像。(2)  IR Fillter镜片,阻挡红外光进入,只让可见光进入CMOS image sensor.

         常用镜片组合:5p,  6P,  7P,  8P,  7P1G.

        目前,传统的塑料镜头虽然仍是市场首选,但性能的天花板已经出现。一般而言,塑料镜头中的塑料镜片数量越多,光线过滤、成像和色彩还原的效果越好。所以塑料镜头镜片数目也从5P逐渐增加到了6P、7P,甚至是8P。不过镜片的数量提升使得镜头的设计难度增加,降低了良品率,让塑料镜头在升级的道路上越走越窄。与此同时,面对用户越来越高的成像追求,塑料镜头在透光率、折射率、成像清晰度等问题越来越突出,无法很好支撑64MP以及1亿以上的超高像素,拍照时会经常出现“伪像”,即“边缘画质变差”和“眩光、鬼影”等,镜头的凸起厚度也越来越厚。

         相比之下,玻璃镜片更轻薄,拥有更好的透光性、更高的折射率、更强的稳定性,可以大大减少“伪像”的出现频率。但是在当前工艺技术和良品率限制下,玻璃镜片无法被广泛使用,只能是采用玻璃镜片+塑料镜片的 “玻塑混合镜头”方案“曲线救国”。事实上,1G玻璃镜片的效果,已可以为用户的拍照体验带来质的改善。

          目前全球具有玻璃镜片技术的厂商主要有大立光、舜宇光学、HOYA、联创光学和瑞声科技.

图片

        3.   镜头马达

         镜头马达的作用是:移动镜头,调整凸透镜光心与CMOS image sensor平面(成像平面)之间的距离,即在物距基本不变(镜头的移动对物距的影响微乎其微)的条件下,调整像距,使物体通过凸透镜在成像平面(CMOS image sensor平面)上清晰成像,即对焦。

          一般VCM 马达有2种:闭环马达(close loop)与  开环马达(open loop),区别:

      (1)闭环马达一般为镜头中置,而开环马达一般将镜头置于镜筒底部或中置。

      (2)闭环马达增加了霍尔传感器,可以探测镜头的位置(通过霍尔芯片来感应四周磁铁的磁通量,进而推算出镜头实际的位置),故可准确 & 快速地把镜头推到目标位置。开环马达没有位置检测,不确定镜头是否推到了目标位置。

          (3)   抖动是开环系统都会遇到的问题。在音圈马达上体现为,由于马达内固定镜头的载体是用弹片固定的,所以到达指定的位置后,由于弹片受力的关系,镜片还会持续震荡一小段时间。一般驱动芯片厂商都会采用一些算法来抑制,比如DW的SRC,ADI的ARC等。但还是会对自动对焦的时间产生影响。闭环马达的控制,则由开环的输入电流 → 输出位移,变为输入位移 → 输出位移,可以根据霍尔芯片的反馈持续调整马达的位置,使镜头位置和输入的位置快速保持一致。

          所以,理论上马达运动100μm,普通马达需要耗时80-100ms,而闭环马达只需20ms,对焦过程中合焦速度快。

            闭环马达的劣势是:将驱动芯片和霍尔芯片一同内置到马达当中,整体工艺难度大大增加,良率也不高,价格贵很多;一般用在高端产品上。

文章来源:澎湃视觉

声明:转载此文目的在于传递更多信息,仅供读者学习、交流之目的。文章版权归原作者所有,如有侵权,请联系删除。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值