OpenCV 学习资料——第七章：OpenCV进阶专题研究

第七章：OpenCV进阶专题研究

7.1 图像分割技术

图像分割是计算机视觉中重要的任务之一，目的是将图像划分为若干个具有独特属性的区域。

7.1.1 分割方法综述

基于阈值：使用像素值对图像进行简单的二值化。
区域生长：根据像素的相似性扩展区域。
分水岭算法：将图像视为地形，进行边界分割。
深度学习分割：如U-Net或DeepLab等模型。

7.1.2 基于阈值的简单分割

1. Otsu自适应阈值

python

import cv2

img = cv2.imread("image.jpg", cv2.IMREAD_GRAYSCALE)
_, binary = cv2.threshold(img, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)

cv2.imshow("Original", img)
cv2.imshow("Binary", binary)
cv2.waitKey(0)
cv2.destroyAllWindows()

2. 基于颜色的分割

使用HSV颜色空间分割特定颜色区域。

python

img = cv2.imread("image.jpg")
hsv = cv2.cvtColor(img, cv2.COLOR_BGR2HSV)

# 定义颜色范围
lower_bound = np.array([35, 50, 50])
upper_bound = np.array([85, 255, 255])

# 颜色掩膜
mask = cv2.inRange(hsv, lower_bound, upper_bound)
result = cv2.bitwise_and(img, img, mask=mask)

cv2.imshow("Original", img)
cv2.imshow("Mask", mask)
cv2.imshow("Result", result)
cv2.waitKey(0)
cv2.destroyAllWindows()

7.1.3 分水岭算法

分水岭算法适用于复杂场景的图像分割，尤其是分离粘连的对象。

python

# 加载图像
img = cv2.imread("coins.jpg")
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# 阈值与距离变换
_, binary = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)
dist_transform = cv2.distanceTransform(binary, cv2.DIST_L2, 5)

# 标记区域
_, markers = cv2.connectedComponents((dist_transform > 0.2 * dist_transform.max()).astype(np.uint8))
markers = markers + 1
markers[binary == 255] = 0

# 分水岭分割
markers = cv2.watershed(img, markers)
img[markers == -1] = [0, 0, 255]

cv2.imshow("Watershed", img)
cv2.waitKey(0)
cv2.destroyAllWindows()

7.2 3D重建与深度学习结合

3D重建是一项高复杂度任务，OpenCV结合深度学习提供了更多可能性。

7.2.1 基于立体视觉的3D重建

匹配关键点：用SIFT、ORB等算法检测特征。
计算视差图：用StereoBM或StereoSGBM生成视差图。
生成深度图：将视差图转为深度图。

示例：视差图生成

python

# 加载左右图像
img_left = cv2.imread("left.jpg", cv2.IMREAD_GRAYSCALE)
img_right = cv2.imread("right.jpg", cv2.IMREAD_GRAYSCALE)

# 创建StereoBM对象
stereo = cv2.StereoBM_create(numDisparities=16, blockSize=15)
disparity = stereo.compute(img_left, img_right)

cv2.imshow("Disparity", disparity)
cv2.waitKey(0)
cv2.destroyAllWindows()

7.2.2 利用深度学习改进3D重建

示例：使用MiDaS深度估计模型

python

import cv2
import torch
import torchvision.transforms as transforms
from PIL import Image

# 加载预训练模型
model = torch.hub.load("intel-isl/MiDaS", "MiDaS")
model.eval()

# 图像预处理
transform = transforms.Compose([
    transforms.Resize(384),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])

img = Image.open("image.jpg").convert("RGB")
input_tensor = transform(img).unsqueeze(0)

# 深度估计
with torch.no_grad():
    depth_map = model(input_tensor).squeeze().numpy()

cv2.imshow("Depth Map", depth_map / depth_map.max())
cv2.waitKey(0)
cv2.destroyAllWindows()

7.3 视频分析与行为检测

7.3.1 视频中的物体跟踪

1. KCF跟踪器

python

tracker = cv2.TrackerKCF_create()
cap = cv2.VideoCapture("video.mp4")

ret, frame = cap.read()
bbox = cv2.selectROI(frame, False)
tracker.init(frame, bbox)

while True:
    ret, frame = cap.read()
    if not ret:
        break

    success, bbox = tracker.update(frame)
    if success:
        x, y, w, h = map(int, bbox)
        cv2.rectangle(frame, (x, y), (x + w, y + h), (255, 0, 0), 2)

    cv2.imshow("Tracking", frame)
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break
cap.release()
cv2.destroyAllWindows()