仿射变换 | 原理、矩阵构造（篇 1）

原创于 2025-12-10 11:58:54 发布 · 655 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#仿射变换

mathematics 专栏收录该内容

199 篇文章

订阅专栏

注：本文为 “仿射变换” 相关合辑。
图片清晰度受引文原图所限。
略作重排，未整理去重。
如有内容异常，请看原文。

什么是仿射变换

彬彬侠原创于 2025-01-13 21:36:33 发布

一、仿射变换的定义

仿射变换（Affine Transformation）是一类重要的几何变换，由线性变换与平移操作组合而成，其特征是保持图形的平直性与线段比例关系。具体而言，仿射变换会将直线映射为直线，维持不同线段之间的长度比例，但可能改变图形的角度、大小及形状。

该变换在计算机视觉、图像处理、深度学习、GIS 空间坐标转换等多个领域具有广泛应用，例如图像的旋转、缩放、平移、剪切操作，以及不同坐标系之间的空间直角坐标转换等场景，均以仿射变换为技术支撑。

二、仿射变换的形式

（一）通用向量形式

仿射变换的通用数学表达式为：
$\mathbf{y} = \mathbf{A}\mathbf{x} + \mathbf{b}$
其中：

$\mathbf{x}$ ：原始坐标（输入向量），通常为 $n$ 维向量；
$\mathbf{y}$ ：变换后的坐标（输出向量），与输入向量维度一致；
$\mathbf{A}$ ：线性变换矩阵，维度为 $\times n$ ，负责实现缩放、旋转、剪切等线性操作；
$\mathbf{b}$ ：平移向量，维度为 $n$ 维，用于控制坐标的平移偏移。

（二）二维平面具体形式

在二维平面坐标系中，仿射变换的代数表达式可细化为：
$x' = a_{11}x + a_{12}y + t_x\\ y' = a_{21}x + a_{22}y + t_y$
其中：

$x, y$ ：原始坐标值；
$x^{'}, y^{'}$ ：变换后的坐标值；
$a_{11}, a_{12}, a_{21}, a_{22}$ ：线性变换参数，分别对应缩放、旋转、剪切等操作的量化指标；
$t_x, t_y$ ：平移参数，分别表示 $x$ 方向、 $y$ 方向的平移距离。

三、仿射变换的基本操作

仿射变换通过平移、缩放、旋转、剪切四种基本操作的组合实现复杂变换，每种基本操作均有明确的数学表达与几何意义：

（一）平移（Translation）

平移是仅改变图形位置而不改变形状、大小和方向的操作，其变换公式为：
$x' = x + t_x\\ y' = y + t_y$
其中 $t_x$ 为 $x$ 方向平移量， $t_y$ 为 $y$ 方向平移量。

（二）缩放（Scaling）

缩放用于调整图形的尺寸大小，可分为均匀缩放（ $x, y$ 方向缩放因子相同）和非均匀缩放（ $x, y$ 方向缩放因子不同），变换公式为：
$s_x \cdot x\\ y' = s_y \cdot y$
其中 $s_x$ 为 $x$ 方向缩放因子， $s_y$ 为 $y$ 方向缩放因子；当 $s_x = s_y > 1$ 时图形放大，当 $0 < s_x = s_y < 1$ 时图形缩小。

（三）旋转（Rotation）

旋转是图形绕某一中心点（默认原点）按指定角度转动的操作，二维平面中绕原点逆时针旋转 $\theta$ 弧度的变换公式为：
$\cdot \cos\theta - y \cdot \sin\theta\\ y' = x \cdot \sin\theta + y \cdot \cos\theta$
若需绕任意点 $x_0, y_0)$ 旋转，需先将图形平移至原点，旋转后再平移回原中心点位置。

（四）剪切（Shear）

剪切是使图形产生“错切”变形的操作，会将矩形等规则图形转化为平行四边形，分为水平剪切与垂直剪切，变换公式分别为：

水平剪切： $k_x \cdot y$ ， $y^{'} = y$ （ $k_x$ 为水平剪切因子）；
垂直剪切： $x^{'} = x$ ， $k_y \cdot x$ （ $k_y$ 为垂直剪切因子）。

四、仿射变换的矩阵形式（齐次坐标）

为了将线性变换与平移操作统一为矩阵乘法形式，方便计算与组合，仿射变换通常采用齐次坐标表示。将 $n$ 维坐标扩展为 $n + 1$ 维，二维仿射变换的齐次矩阵形式为：
$\begin{bmatrix} x' \\ y' \\ 1 \end{bmatrix}= \begin{bmatrix} a_{11} & a_{12} & t_x \\ a_{21} & a_{22} & t_y \\ 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} x \\ y \\ 1 \end{bmatrix}$
其中，3×3 矩阵的前 2×2 子矩阵 (\begin{bmatrix} a_{11} & a_{12} \ a_{21} & a_{22} \end{bmatrix}) 对应线性变换（缩放、旋转、剪切），最后一列的前两个元素 ((t_x, t_y)) 对应平移操作，最后一行固定为 ((0, 0, 1)) 以保证齐次坐标的特性。

通过齐次矩阵形式，多次仿射变换可通过矩阵乘法实现组合，无需单独处理线性变换与平移操作，大幅简化了复杂变换的计算流程。

五、仿射变换的关键性质

保持平直性：变换后直线仍为直线，不会出现曲线化变形，且平行线经过变换后依然保持平行；
保持比例性：同一直线上的线段长度比例，在变换后保持不变；
共线性与共面性不变：共线的点经过变换后仍共线，共面的点经过变换后仍共面；
角度与面积可变性：除平移、均匀缩放、旋转等刚体变换外，剪切、非均匀缩放等操作会改变图形的角度与面积。

六、仿射变换的典型应用场景

（一）图像处理领域

基础操作：图像的旋转、缩放、平移、剪切，用于图像裁剪、尺寸标准化等；
数据增强：深度学习训练中，通过随机仿射变换生成多样化样本，提升模型泛化能力；
图像配准：多幅同源图像的对齐的操作，消除拍摄角度、位置差异。

（二）计算机视觉领域

目标检测：候选窗口的变换与调整，适配不同尺度、角度的目标；
姿态估计：通过仿射变换还原物体的空间姿态；
图像校正：修正拍摄过程中产生的透视畸变、倾斜畸变。

（三）GIS 与空间数据处理

空间直角坐标转换：不同坐标系（如屏幕坐标与地理坐标）之间的转换，是 GIS 二次开发的关键技术之一；
地图投影变换：部分地图投影的计算过程依赖仿射变换的线性变换特性。

（四）游戏与计算机图形学

模型变换：游戏角色、场景物体的平移、旋转、缩放，实现动态展示效果；
场景渲染：通过仿射变换调整视角与物体位置，构建三维场景的二维投影。

七、PyTorch 中的仿射变换实现

PyTorch 提供了 torch.nn.functional.affine_grid 和 torch.nn.functional.grid_sample 两个关键函数，用于高效实现图像的仿射变换，适用于深度学习中的数据处理与模型训练场景。

示例：图像的旋转与平移组合变换

import torch
import torch.nn.functional as F

# 1. 定义仿射变换矩阵（绕原点逆时针旋转 30° + 无平移）
theta = torch.tensor([
    [torch.cos(torch.tensor(30 * torch.pi / 180)), -torch.sin(torch.tensor(30 * torch.pi / 180)), 0.0],
    [torch.sin(torch.tensor(30 * torch.pi / 180)), torch.cos(torch.tensor(30 * torch.pi / 180)), 0.0]
], dtype=torch.float32).unsqueeze(0)  # 添加 batch 维度，形状为 (1, 2, 3)

# 2. 创建仿射变换网格（输出图像尺寸为 (1, 1, 256, 256)，即 batch=1、channel=1、高=256、宽=256）
grid = F.affine_grid(theta, size=(1, 1, 256, 256), align_corners=False)

# 3. 生成输入图像（随机生成 1 张 1 通道、256×256 尺寸的图像）
input_image = torch.rand(1, 1, 256, 256, dtype=torch.float32)

# 4. 应用仿射变换
output_image = F.grid_sample(input_image, grid, align_corners=False)

# 输出结果信息
print("输入图像形状:", input_image.shape)
print("输出图像形状:", output_image.shape)

代码说明

affine_grid：根据变换矩阵 theta 和目标输出尺寸生成变换网格，网格定义了输入图像每个像素在输出图像中的对应位置；
grid_sample：根据生成的网格，对输入图像进行采样，实现仿射变换；
align_corners：控制网格采样时是否对齐图像角落像素，False 为默认推荐设置，避免边缘像素畸变。

八、总结

仿射变换是一类兼具灵活性与实用性的几何变换，通过线性变换与平移的组合，能够实现图形的平移、缩放、旋转、剪切等多种操作。其优势在于保持平直性与线段比例关系，同时通过齐次坐标形式实现复杂变换的统一计算。

从理论层面，仿射变换的数学原理清晰，矩阵表达与参数求解逻辑严谨；从应用层面，其广泛覆盖图像处理、计算机视觉、GIS、深度学习等多个领域，是技术落地的关键工具。深入理解仿射变换的原理与性质，能够为相关领域的算法设计、数据处理提供坚实的理论支撑，助力优化技术方案与提升应用效果。

图像几何变换之仿射变换原理及实现

Eating Lee 原创于 2019-03-19 23:03:00 发布

一、仿射变换的数学基础与定义

1.1 定义

仿射变换是平面内点集到另一平面点集的映射关系，其特征是保持图形的“平直性”——即直线经过变换后仍为直线，且平行线变换后依然平行。该变换在图像处理领域应用广泛，包括但不限于图像配准、几何畸变纠正、纹理映射及全景图像拼接等场景。

仿射变换示意图

1.2 数学表示

（1）坐标变换表达式

仿射变换可描述为二维直角坐标 $(x, y)$ 到目标坐标 $(u, v)$ 的线性变换与平移变换的组合，其代数形式为：
$\begin{cases} u = a_{11}x + a_{12}y + t_x \\ v = a_{21}x + a_{22}y + t_y \end{cases}$
其中， $a_{11}, a_{12}, a_{21}, a_{22}$ 构成线性变换系数， $t_x, t_y$ 为平移分量。

（2）齐次坐标矩阵表示

为统一线性变换与平移变换的矩阵运算形式，引入齐次坐标（将二维点 $(x, y)$ 扩展为三维向量 $(x, y, 1)$ ），此时仿射变换可表示为矩阵乘法形式：

$\underbrace{\begin{bmatrix} u \\ v \\ 1 \end{bmatrix}}_{\text{输出：目标齐次坐标 } \mathbf{X}'}= \underbrace{ \left[ \underbrace{\begin{bmatrix} a_{11} \\ a_{21} \\ 0 \end{bmatrix}}_{\text{x 轴基向量变换结果}}\ \underbrace{\begin{bmatrix} a_{12} \\ a_{22} \\ 0 \end{bmatrix}}_{\text{y 轴基向量变换结果}}\ \underbrace{\begin{bmatrix} t_x \\ t_y \\ 1 \end{bmatrix}}_{\text{原点平移向量}} \right] }_{\begin{array}{c}\text{仿射变换矩阵 } \mathbf{H} \\ \hline \text{行 1：x 坐标映射方程} \\ \text{行 2：y 坐标映射方程} \\ \text{行 3：齐次坐标约束}\end{array}} \cdot \underbrace{\begin{bmatrix} x \\ y \\ 1 \end{bmatrix}}_{\text{输入：原始齐次坐标 } \mathbf{X}}$

对比一般投影变换矩阵 $\mathbf{H}_{\text{投影}} = \begin{bmatrix} h_{00} & h_{01} & h_{02} \\ h_{10} & h_{11} & h_{12} \\ h_{20} & h_{21} & h_{22} \end{bmatrix}$ ，仿射变换的约束条件为 $h_{20} = 0$ 、 $h_{21} = 0$ 、 $h_{22} = 1$ ，因此仅含 6 个独立未知参数（ $a_{11}, a_{12}, a_{21}, a_{22}, t_x, t_y$ ）。

（3）非齐次坐标还原

若已知齐次坐标变换结果 $(w u, w v, w)$ （ $\neq 0$ ），可通过以下公式还原二维直角坐标：
$\frac{a_{11}x + a_{12}y + t_x}{1}\\[1em] v = \frac{a_{21}x + a_{22}y + t_y}{1}$
因仿射变换中分母恒为 1，无需额外归一化操作。

二、仿射变换的几何分解

仿射变换可分解为平移、旋转、尺度变换等基本几何变换的复合运算，各基本变换的矩阵形式与几何意义如下：