DIA——图像变换

一.可分离正交的变换

1. 可分离变换(Separable Transform)

定义
可分离变换指二维变换可以分解为两个一维变换的顺序应用,通常先行变换后列变换(或反之)。这种分解显著降低了计算复杂度。

数学表达
对于图像 f ( x , y ) f(x, y) f(x,y),二维可分离变换可表示为:
F ( u , v ) = ∑ x = 0 N − 1 ∑ y = 0 N − 1 f ( x , y ) ⋅ g u ( x ) ⋅ h v ( y ) F(u, v) = \sum_{x=0}^{N-1} \sum_{y=0}^{N-1} f(x, y) \cdot g_u(x) \cdot h_v(y) F(u,v)=x=0N1y=0N1f(x,y)gu(x)hv(y)
其中, g u ( x ) g_u(x) gu(x) h v ( y ) h_v(y) hv(y)为一维基函数。若两者相同(如余弦函数),则得到常见的可分离变换(如DCT)。

优势

  • 计算效率:二维复杂度从 O ( N 4 ) O(N^4) O(N4)降至 O ( N 3 ) O(N^3) O(N3),若配合快速算法(如FFT),可进一步优化为 O ( N 2 log ⁡ N ) O(N^2 \log N) O(N2logN)

2. 正交变换(Orthogonal Transform)

定义
正交变换的基函数满足正交性条件,即任意两个不同基函数的内积为零,且通常归一化(标准正交基)。数学上,变换矩阵 A A A满足 A A T = I A A^T = I AAT=I,其中 I I I为单位矩阵。

特性

  • 能量守恒:变换前后信号能量不变(帕塞瓦尔定理)。
  • 去相关性:变换后系数间冗余减少,利于压缩。

3. 常见问题解答

  • 是否所有正交变换都可分离?
    并非绝对,但常见图像变换(如DCT、DFT)多为可分离且正交。某些小波变换可能是正交但不可分离的。

  • 可分离性是否仅限行-列分解?
    通常如此,但理论上存在其他分解方式,实际应用中以行列分解为主。

  • 能量保持的意义
    确保压缩时丢弃低能量系数不会显著影响重建质量,如JPEG保留大幅值DCT系数。

4. 总结

  • 可分离性提升计算效率,正交性确保能量集中与去相关。
  • 两者结合使得DCT、DFT等成为图像处理的标准工具,广泛应用于压缩与分析任务。

二. 可分离且正交的变换

此类变换兼具高效计算与去相关优势,典型例子包括:

  • 离散余弦变换(DCT)
    用于JPEG压缩,能量集中在低频系数,适合丢弃高频信息以实现压缩。二维DCT通过对行、列分别应用一维DCT实现。

  • 离散傅里叶变换(DFT)
    复指数基函数,可分离且正交,常用于频域分析。通过FFT加速计算。

  • 沃尔什-哈达玛变换(WHT)
    基函数为+1和-1的组合,计算简单,适用于低复杂度场景。

1.二维离散余弦变换(2D-DCT)详解

二维离散余弦变换(2D-DCT)是图像和视频压缩(如JPEG、MPEG)中的核心工具,它通过将空域图像转换到频域,实现能量的高效集中和去相关。与DFT不同,DCT仅使用实数运算,更适合处理自然图像的统计特性。


1.1 定义与数学表达

目标
将尺寸为 M × N M \times N M×N 的二维离散信号(如图像) f ( x , y ) f(x, y) f(x,y) 转换为频域实数矩阵 F ( u , v ) F(u, v) F(u,v),其中低频分量集中大部分能量,便于压缩。

正向变换(2D-DCT-II)(JPEG标准采用的形式):
F ( u , v ) = C ( u ) C ( v ) ∑ x = 0 M − 1 ∑ y = 0 N − 1 f ( x , y ) ⋅ cos ⁡ ( π u ( 2 x + 1 ) 2 M ) cos ⁡ ( π v ( 2 y + 1 ) 2 N ) F(u, v) = C(u) C(v) \sum_{x=0}^{M-1} \sum_{y=0}^{N-1} f(x, y) \cdot \cos\left( \frac{\pi u (2x+1)}{2M} \right) \cos\left( \frac{\pi v (2y+1)}{2N} \right) F(u,v)=C(u)C(v)x=0M1y=0N1f(x,y)cos(2Mπu(2x+1))cos(2Nπv(2y+1))
其中:

  • u = 0 , 1 , … , M − 1 u = 0, 1, \dots, M-1 u=0,1,,M1 v = 0 , 1 , … , N − 1 v = 0, 1, \dots, N-1 v=0,1,,N1
  • 归一化系数:
    C ( u ) = { 1 M , u = 0 2 M , u > 0 , C ( v ) = { 1 N , v = 0 2 N , v > 0 C(u) = \begin{cases} \sqrt{\frac{1}{M}}, & u = 0 \\ \sqrt{\frac{2}{M}}, & u > 0 \end{cases}, \quad C(v) = \begin{cases} \sqrt{\frac{1}{N}}, & v = 0 \\ \sqrt{\frac{2}{N}}, & v > 0 \end{cases} C(u)= M1 ,M2 ,u=0u>0,C(v)= N1 ,N2 ,v=0v>0

逆向变换(2D-IDCT)
f ( x , y ) = ∑ u = 0 M − 1 ∑ v = 0 N − 1 C ( u ) C ( v ) F ( u , v ) ⋅ cos ⁡ ( π u ( 2 x + 1 ) 2 M ) cos ⁡ ( π v ( 2 y + 1 ) 2 N ) f(x, y) = \sum_{u=0}^{M-1} \sum_{v=0}^{N-1} C(u) C(v) F(u, v) \cdot \cos\left( \frac{\pi u (2x+1)}{2M} \right) \cos\left( \frac{\pi v (2y+1)}{2N} \right) f(x,y)=u=0M1v=0N1C(u)C(v)F(u,v)cos(2Mπu(2x+1))cos(2Nπv(2y+1))


1.2核心特性
  1. 可分离性
    2D-DCT可分解为两次一维DCT操作:

    • 行变换:对图像的每一行进行一维DCT。
    • 列变换:对中间结果的每一列进行一维DCT。
      计算优势:复杂度从 O ( M 2 N 2 ) O(M^2 N^2) O(M2N2) 优化至 O ( M N ( M + N ) ) O(MN(M + N)) O(MN(M+N)),结合快速算法(如FFT-based)可进一步降低。
  2. 正交性
    DCT的基函数是正交的,满足:
    ∑ x = 0 M − 1 cos ⁡ ( π u ( 2 x + 1 ) 2 M ) cos ⁡ ( π u ′ ( 2 x + 1 ) 2 M ) = { M , u = u ′ = 0 M / 2 , u = u ′ ≠ 0 0 , 其他 \sum_{x=0}^{M-1} \cos\left( \frac{\pi u (2x+1)}{2M} \right) \cos\left( \frac{\pi u' (2x+1)}{2M} \right) = \begin{cases} M, & u = u' = 0 \\ M/2, & u = u' \neq 0 \\ 0, & \text{其他} \end{cases} x=0M1cos(2Mπu(2x+1))cos(2Mπu(2x+1))= M,M/2,0,u=u=0u=u=0其他
    这一特性确保变换可逆且能量守恒。

  3. 能量集中(Energy Compaction)
    自然图像的能量主要集中在低频区域(即左上角的DCT系数)。例如,JPEG通过量化并舍弃高频系数(接近零)实现压缩。

  4. 实数输出
    输入为实信号时,DCT输出为实数,无需处理复数运算,适合硬件实现。


1.3物理意义与图像分析
  • 低频分量(Low-Frequency Coefficients)
    对应图像的整体亮度和平滑区域(如天空、背景)。
  • 高频分量(High-Frequency Coefficients)
    对应边缘、纹理和细节(如头发、文字)。
  • 量化与压缩
    JPEG将DCT系数按“之”字形扫描后,对高频系数进行粗量化,保留主要低频信息。

1.4总结
  • 2D-DCT 是图像压缩的黄金标准,以高能量集中和去相关能力著称。
  • 可分离性与快速算法 使其适用于实时编码(如视频流)。
  • 应用广泛:从JPEG到现代视频编码标准,DCT持续发挥核心作用。
  • 结合量化与熵编码 可高效压缩数据,平衡质量与码率。

通过2D-DCT,图像处理系统能够将视觉冗余转化为压缩增益,为数字多媒体技术奠定数学基础。

2.二维离散傅里叶变换(2D-DFT)详解

二维离散傅里叶变换(2D-DFT)是图像处理中的核心工具,用于将二维离散信号(如图像)从空域(空间域)转换到频域。它是一维DFT的自然扩展,广泛应用于图像滤波、压缩、特征提取等领域。


2.1.定义与数学表达

目标
将尺寸为 M × N M \times N M×N 的二维离散信号(如图像) f ( x , y ) f(x, y) f(x,y) x = 0 , 1 , … , M − 1 x=0,1,\dots,M-1 x=0,1,,M1 y = 0 , 1 , … , N − 1 y=0,1,\dots,N-1 y=0,1,,N1)转换为频域的复数矩阵 F ( u , v ) F(u, v) F(u,v),表示不同空间频率成分的强度与相位。

正向变换(2D-DFT)
F ( u , v ) = ∑ x = 0 M − 1 ∑ y = 0 N − 1 f ( x , y ) ⋅ e − j 2 π ( u x M + v y N ) F(u, v) = \sum_{x=0}^{M-1} \sum_{y=0}^{N-1} f(x, y) \cdot e^{-j 2\pi \left( \frac{u x}{M} + \frac{v y}{N} \right)} F(u,v)=x=0M1y=0N1f(x,y)ej2π(Mux+Nvy)

  • u和v为频域坐标,分别对应水平和垂直方向的空间频率。
  • j = − 1 j = \sqrt{-1} j=1 ,基函数为二维复指数函数。

逆向变换(2D-IDFT)
f ( x , y ) = 1 M N ∑ u = 0 M − 1 ∑ v = 0 N − 1 F ( u , v ) ⋅ e j 2 π ( u x M + v y N ) f(x, y) = \frac{1}{MN} \sum_{u=0}^{M-1} \sum_{v=0}^{N-1} F(u, v) \cdot e^{j 2\pi \left( \frac{u x}{M} + \frac{v y}{N} \right)} f(x,y)=MN1u=0M1v=0N1F(u,v)ej2π(Mux+Nvy)


2.2 核心特性
  1. 可分离性(Separability)
    二维DFT可分解为两个一维DFT的顺序操作:

    • 先对每一行进行一维DFT(水平方向),得到中间结果 F ( x , v ) F(x, v) F(x,v)
    • 再对每一列进行一维DFT(垂直方向),得到最终的 F ( u , v ) F(u, v) F(u,v)
      数学表达:
      F ( u , v ) = ∑ x = 0 M − 1 [ ∑ y = 0 N − 1 f ( x , y ) e − j 2 π v y N ] e − j 2 π u x M F(u, v) = \sum_{x=0}^{M-1} \left[ \sum_{y=0}^{N-1} f(x, y) e^{-j 2\pi \frac{v y}{N}} \right] e^{-j 2\pi \frac{u x}{M}} F(u,v)=x=0M1[y=0N1f(x,y)ej2πNvy]ej2πMux
      计算复杂度
    • 直接二维计算复杂度为 O ( M 2 N 2 ) O(M^2 N^2) O(M2N2)
    • 利用可分离性优化为 O ( M N ( M + N ) ) O(MN(M + N)) O(MN(M+N)),结合FFT进一步降至 O ( M N log ⁡ M N ) O(MN \log MN) O(MNlogMN)
  2. 正交性
    二维DFT的基函数满足正交性,确保变换可逆且能量守恒(帕塞瓦尔定理):
    ∑ x = 0 M − 1 ∑ y = 0 N − 1 ∣ f ( x , y ) ∣ 2 = 1 M N ∑ u = 0 M − 1 ∑ v = 0 N − 1 ∣ F ( u , v ) ∣ 2 \sum_{x=0}^{M-1} \sum_{y=0}^{N-1} |f(x, y)|^2 = \frac{1}{MN} \sum_{u=0}^{M-1} \sum_{v=0}^{N-1} |F(u, v)|^2 x=0M1y=0N1f(x,y)2=MN1u=0M1v=0N1F(u,v)2

  3. 共轭对称性
    对于实值图像 f ( x , y ) f(x, y) f(x,y),其频谱满足:
    F ( u , v ) = F ∗ ( − u , − v ) F(u, v) = F^*(-u, -v) F(u,v)=F(u,v)
    这意味着频谱图关于中心对称,仅需存储一半数据即可完整表示。

  4. 频谱平移(零频率中心化)
    空域图像的平移会导致频域相位变化,但幅度谱不变。为便于观察,常将低频分量移到频谱中心:
    F shift ( u , v ) = F ( u − M 2 , v − N 2 ) F_{\text{shift}}(u, v) = F\left(u - \frac{M}{2}, v - \frac{N}{2}\right) Fshift(u,v)=F(u2M,v2N)
    实现方式:对图像预先乘以 ( − 1 ) x + y (-1)^{x+y} (1)x+y 再进行DFT。


2.3.物理意义与图像频域分析
  • 幅度谱(Amplitude Spectrum)
    ∣ F ( u , v ) ∣ |F(u, v)| F(u,v) 表示不同空间频率的能量分布。

    • 低频:对应图像中的平滑区域(如背景)。
    • 高频:对应边缘、纹理等细节。
  • 相位谱(Phase Spectrum)
    arg ⁡ ( F ( u , v ) ) \arg(F(u, v)) arg(F(u,v)) 包含图像的结构信息,对视觉感知更关键。
    实验现象:若交换两幅图像的相位谱,重建图像将呈现相位谱对应图像的结构。

  • 频域坐标与实际频率的对应
    水平频率 u u u 和垂直频率 v v v 对应的实际空间频率为:
    f u = u M ⋅ f sample , f v = v N ⋅ f sample f_u = \frac{u}{M} \cdot f_{\text{sample}}, \quad f_v = \frac{v}{N} \cdot f_{\text{sample}} fu=Mufsample,fv=Nvfsample
    f sample f_{\text{sample}} fsample 为采样频率(如像素/单位长度)。


2.4总结
  • 二维DFT 是图像频域分析的基石,揭示图像的空间频率成分。
  • 可分离性与FFT 使其高效实用,适用于实时处理。
  • 应用广泛:从去噪到压缩,再到特征提取。
  • 结合空域与频域 能更全面地理解图像特性。

通过二维DFT,图像处理不再局限于像素级操作,而是能够利用频域工具实现更智能的增强与分析。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

徐行tag

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值