图像处理中的滑动窗口与区域框选技术
1. PSNR与SSIM简介
PSNR(峰值信噪比)
PSNR是最常用的图像质量评估指标之一,公式为:
PSNR = 10 ⋅ log 10 ( MAX I 2 MSE ) \text{PSNR} = 10 \cdot \log_{10} \left( \frac{\text{MAX}_I^2}{\text{MSE}} \right) PSNR=10⋅log10(MSEMAXI2)
其中 MAX I \text{MAX}_I MAXI是图像像素的最大可能值(如8位图像为255), MSE \text{MSE} MSE是均方误差。
SSIM(结构相似性指数)
SSIM是更符合人眼视觉感知的评估指标,公式为:
SSIM ( x , y ) = ( 2 μ x μ y + C 1 ) ( 2 σ x y + C 2 ) ( μ x 2 + μ y 2 + C 1 ) ( σ x 2 + σ y 2 + C 2 ) \text{SSIM}(x, y) = \frac{(2\mu_x\mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)} SSIM(x,y)=(μx2+μy2+C1)(σx2+σy2+C2)(2μxμy+C1)(2σxy+C2)
2. 滑动窗口实现
实现原理
滑动窗口是在图像上移动固定大小窗口的技术:
- 定义窗口大小 w × h w \times h w×h
- 按步长滑动窗口
- 在每个窗口内执行操作
- 保存或可视化结果
Python代码实现
import cv2
import numpy as np
def sliding_window(image, window_size, step_size):
for y in range(0, image.shape[0] - window_size[1], step_size[1]):
for x in range(0, image.shape[1] - window_size[0], step_size[0]):
yield (x, y, image[y:y + window_size[1], x:x + window_size[0]])
# 使用示例
image = cv2.imread("input.jpg")
window_size = (100, 100)
step_size = (50, 50)
for (x, y, window) in sliding_window(image, window_size, step_size):
cv2.rectangle(image, (x, y), (x + window_size[0], y + window_size[1]), (0, 255, 0), 2)
cv2.imshow("Window", image)
cv2.waitKey(100)
3. 区域框选与放大比较
实现步骤
- 用
cv2.rectangle
画矩形框 - 裁剪框选区域
- 放大显示区域
- 拼接对比显示
Python代码实现
import cv2
import numpy as np
image = cv2.imread("input.jpg")
x1, y1, x2, y2 = 100, 100, 200, 200
# 画框选区域
cv2.rectangle(image, (x1, y1), (x2, y2), (0, 0, 255), 2)
# 提取并放大区域
roi = image[y1:y2, x1:x2]
roi_resized = cv2.resize(roi, (400, 400))
# 拼接显示
result = np.hstack((image, roi_resized))
cv2.imshow("Comparison", result)
cv2.waitKey(0)
4. 论文级可视化
高级实现方法
# 创建空白画布
result = np.zeros((max(image.shape[0], roi_resized.shape[0]),
image.shape[1] + roi_resized.shape[1], 3), dtype=np.uint8)
# 放置图像
result[:image.shape[0], :image.shape[1]] = image
result[:roi_resized.shape[0], image.shape[1]:] = roi_resized
# 添加箭头标注
cv2.arrowedLine(result, (x2, y2), (image.shape[1] + 50, 50), (0, 255, 0), 2)
数学公式补充
Gamma函数定义:
Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=∫0∞tz−1e−tdt.
当 n n n为自然数时:
Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n−1)!∀n∈N
总结表格
技术 | 用途 | 关键函数 |
---|---|---|
滑动窗口 | 局部特征分析 | cv2.rectangle |
区域框选 | 细节对比 | image[y1:y2, x1:x2] |
放大显示 | 增强可视化 | cv2.resize |
箭头标注 | 论文插图 | cv2.arrowedLine |