第七章:OpenCV进阶专题研究
7.1 图像分割技术
图像分割是计算机视觉中重要的任务之一,目的是将图像划分为若干个具有独特属性的区域。
7.1.1 分割方法综述
- 基于阈值:使用像素值对图像进行简单的二值化。
- 区域生长:根据像素的相似性扩展区域。
- 分水岭算法:将图像视为地形,进行边界分割。
- 深度学习分割:如U-Net或DeepLab等模型。
7.1.2 基于阈值的简单分割
1. Otsu自适应阈值
python
import cv2
img = cv2.imread("image.jpg", cv2.IMREAD_GRAYSCALE)
_, binary = cv2.threshold(img, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
cv2.imshow("Original", img)
cv2.imshow("Binary", binary)
cv2.waitKey(0)
cv2.destroyAllWindows()
2. 基于颜色的分割
使用HSV颜色空间分割特定颜色区域。
python
img = cv2.imread("image.jpg")
hsv = cv2.cvtColor(img, cv2.COLOR_BGR2HSV)
# 定义颜色范围
lower_bound = np.array([35, 50, 50])
upper_bound = np.array([85, 255, 255])
# 颜色掩膜
mask = cv2.inRange(hsv, lower_bound, upper_bound)
result = cv2.bitwise_and(img, img, mask=mask)
cv2.imshow("Original", img)
cv2.imshow("Mask", mask)
cv2.imshow("Result", result)
cv2.waitKey(0)
cv2.destroyAllWindows()
7.1.3 分水岭算法
分水岭算法适用于复杂场景的图像分割,尤其是分离粘连的对象。
python
# 加载图像
img = cv2.imread("coins.jpg")
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
# 阈值与距离变换
_, binary = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)
dist_transform = cv2.distanceTransform(binary, cv2.DIST_L2, 5)
# 标记区域
_, markers = cv2.connectedComponents((dist_transform > 0.2 * dist_transform.max()).astype(np.uint8))
markers = markers + 1
markers[binary == 255] = 0
# 分水岭分割
markers = cv2.watershed(img, markers)
img[markers == -1] = [0, 0, 255]
cv2.imshow("Watershed", img)
cv2.waitKey(0)
cv2.destroyAllWindows()
7.2 3D重建与深度学习结合
3D重建是一项高复杂度任务,OpenCV结合深度学习提供了更多可能性。
7.2.1 基于立体视觉的3D重建
- 匹配关键点:用SIFT、ORB等算法检测特征。
- 计算视差图:用StereoBM或StereoSGBM生成视差图。
- 生成深度图:将视差图转为深度图。
示例:视差图生成
python
# 加载左右图像
img_left = cv2.imread("left.jpg", cv2.IMREAD_GRAYSCALE)
img_right = cv2.imread("right.jpg", cv2.IMREAD_GRAYSCALE)
# 创建StereoBM对象
stereo = cv2.StereoBM_create(numDisparities=16, blockSize=15)
disparity = stereo.compute(img_left, img_right)
cv2.imshow("Disparity", disparity)
cv2.waitKey(0)
cv2.destroyAllWindows()
7.2.2 利用深度学习改进3D重建
示例:使用MiDaS深度估计模型
python
import cv2
import torch
import torchvision.transforms as transforms
from PIL import Image
# 加载预训练模型
model = torch.hub.load("intel-isl/MiDaS", "MiDaS")
model.eval()
# 图像预处理
transform = transforms.Compose([
transforms.Resize(384),
transforms.ToTensor(),
transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])
img = Image.open("image.jpg").convert("RGB")
input_tensor = transform(img).unsqueeze(0)
# 深度估计
with torch.no_grad():
depth_map = model(input_tensor).squeeze().numpy()
cv2.imshow("Depth Map", depth_map / depth_map.max())
cv2.waitKey(0)
cv2.destroyAllWindows()
7.3 视频分析与行为检测
7.3.1 视频中的物体跟踪
1. KCF跟踪器
python
tracker = cv2.TrackerKCF_create()
cap = cv2.VideoCapture("video.mp4")
ret, frame = cap.read()
bbox = cv2.selectROI(frame, False)
tracker.init(frame, bbox)
while True:
ret, frame = cap.read()
if not ret:
break
success, bbox = tracker.update(frame)
if success:
x, y, w, h = map(int, bbox)
cv2.rectangle(frame, (x, y), (x + w, y + h), (255, 0, 0), 2)
cv2.imshow("Tracking", frame)
if cv2.waitKey(1) & 0xFF == ord('q'):
break
cap.release()
cv2.destroyAllWindows()