33、基于OpenCV的图像分析与计算机视觉实践

原创于 2025-07-23 14:21:09 发布 · 96 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#OpenCV # 图像分析 # 计算机视觉

Python数据分析实战指南专栏收录该内容

33 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于OpenCV的图像分析与计算机视觉实践

1. 边缘检测的实际示例

在进行边缘检测的实践时，我们会使用两张专门用于测试轮廓分析的图像，它们具有一些重要特征。
- 测试图像介绍
- 黑白箭头图像（blackandwhite.jpg） ：由两个黑白箭头组成，颜色对比度强，箭头轮廓包含各种可能的方向（水平、垂直和对角线），用于评估黑白系统中边缘检测的效果。
- 灰度渐变图像（gradients.jpg） ：展示了不同的灰度渐变，相邻的渐变形成矩形，其边缘具有各种可能的灰度层次和组合，可用于评估系统的真实边缘检测能力。

边缘检测代码实现
我们将使用 matplotlib 在同一窗口中显示不同的图像，并使用OpenCV提供的两种不同类型的图像滤波器：Sobel和Laplacian。以下是对黑白箭头图像进行边缘检测的代码：

from matplotlib import pyplot as plt
import cv2

img = cv2.imread('blackandwhite.jpg', 0)
laplacian = cv2.Laplacian(img, cv2.CV_64F)
sobelx = cv2.Sobel(img, cv2.CV_64F, 1, 0, ksize=5)
sobely = cv2.Sobel(img, cv2.CV_64F, 0, 1, ksize=5)

plt.subplot(2, 2, 1), plt.imshow(img, cmap='gray')
plt.title('Original'), plt.xticks([]), plt.yticks([])
plt.subplot(2, 2, 2), plt.imshow(laplacian, cmap='gray')
plt.title('Laplacian'), plt.xticks([]), plt.yticks([])
plt.subplot(2, 2, 3), plt.imshow(sobelx, cmap='gray')
plt.title('Sobel Y'), plt.xticks([]), plt.yticks([])
plt.subplot(2, 2, 4), plt.imshow(sobely, cmap='gray')
plt.title('Sobel Y'), plt.xticks([]), plt.yticks([])
plt.show()

运行这段代码后，会出现一个包含四个框的窗口。第一个框是原始的黑白图像，另外三个框是应用三种滤波器后的结果。

滤波器效果分析
- Sobel滤波器 ：边缘检测效果较好，但在水平或垂直方向上有局限性。对角线在两种情况下都可见，因为它们具有水平和垂直分量，但Sobel X中的水平边缘和Sobel Y中的垂直边缘无法被检测到。
- Laplacian滤波器 ：通过组合两个Sobel滤波器（计算两个导数）得到，边缘检测是全向的，但有一定的分辨率损失。可以看到边缘对应的波纹更平缓。
输出数据类型调整
如果只对边缘检测感兴趣，可以将滤波器函数的输出数据类型从 cv2.CV_64F 更改为 cv2.CV_8U 。修改后的代码如下：

laplacian = cv2.Laplacian(img, cv2.CV_8U)
sobelx = cv2.Sobel(img, cv2.CV_8U, 1, 0, ksize=5)
sobely = cv2.Sobel(img, cv2.CV_8U, 0, 1, ksize=5)

运行修改后的代码会得到类似的结果，但这次只有黑白图像，边缘以白色显示在黑色背景上。不过，仔细观察Sobel滤波器X和Y的面板，会发现有些边缘缺失。这是因为在从 cv2.CV_64F 转换到 cv2.CV_8U 时，负斜率（从白色到黑色的梯度）被缩减为0，导致这些边缘信息丢失。

解决边缘缺失问题
为了解决这个问题，我们需要将滤波器输出的数据保持在 cv2.CV_64F ，计算其绝对值，最后再转换为 cv2.CV_8U 。修改后的代码如下：

import numpy as np

laplacian64 = cv2.Laplacian(img, cv2.CV_64F)
sobelx64 = cv2.Sobel(img, cv2.CV_64F, 1, 0, ksize=5)
sobely64 = cv2.Sobel(img, cv2.CV_64F, 0, 1, ksize=5)
laplacian = np.uint8(np.absolute(laplacian64))
sobelx = np.uint8(np.absolute(sobelx64))
sobely = np.uint8(np.absolute(sobely64))

plt.subplot(2, 2, 1), plt.imshow(img, cmap='gray')
plt.title('Original'), plt.xticks([]), plt.yticks([])
plt.subplot(2, 2, 2), plt.imshow(laplacian, cmap='gray')
plt.title('Laplacian'), plt.xticks([]), plt.yticks([])
plt.subplot(2, 2, 3), plt.imshow(sobelx, cmap='gray')
plt.title('Sobel Y'), plt.xticks([]), plt.yticks([])
plt.subplot(2, 2, 4), plt.imshow(sobely, cmap='gray')
plt.title('Sobel Y'), plt.xticks([]), plt.yticks([])
plt.show()

运行这段代码后，会得到箭头边缘以白色显示在黑色背景上的正确表示。

应用于灰度渐变图像
将上述方法应用于 gradients.jpg 图像，只需对代码进行一些修改，只显示Laplacian图像。代码如下：

from matplotlib import pyplot as plt
import cv2
import numpy as np

img = cv2.imread('gradients.jpg', 0)
laplacian = cv2.Laplacian(img, cv2.CV_64F)
sobelx = cv2.Sobel(img, cv2.CV_64F, 1, 0, ksize=5)
sobely = cv2.Sobel(img, cv2.CV_64F, 0, 1, ksize=5)
laplacian64 = cv2.Laplacian(img, cv2.CV_64F)
sobelx64 = cv2.Sobel(img, cv2.CV_64F, 1, 0, ksize=5)
sobely64 = cv2.Sobel(img, cv2.CV_64F, 0, 1, ksize=5)
laplacian = np.uint8(np.absolute(laplacian64))
sobelx = np.uint8(np.absolute(sobelx64))
sobely = np.uint8(np.absolute(sobely64))

plt.imshow(laplacian, cmap='gray')
plt.title('Laplacian'), plt.xticks([]), plt.yticks([])
plt.show()

运行这段代码会得到一个显示黑色背景上白色边框的图像。

2. 深度学习示例：人脸检测

人脸检测是计算机视觉中一个研究和应用广泛的案例，比边缘检测复杂得多，它基于在图像中识别人脸。由于问题的复杂性，人脸检测使用深度学习技术，其基础是专门设计用于识别照片中不同对象（包括人脸）的神经网络。

所需文件
使用基于Caffe模型的深度神经网络模块进行人脸检测时，需要以下两种文件：
- prototxt文件 ：定义模型架构（即各层本身）。可以从这里下载 deploy.prototxt.txt 文件。
- caffemodel文件 ：包含深度神经网络各层的权重，是最重要的文件，包含了神经网络执行特定任务的所有“学习”信息。可以从这里获取所需的 caffemodel 文件。
人脸检测代码实现
以下是进行人脸检测的代码：

import cv2
import numpy as np
from matplotlib import pyplot as plt

# 加载神经网络模型
net = cv2.dnn.readNetFromCaffe('deploy.prototxt.txt', 'res10_300x300_ssd_iter_140000.caffemodel')

# 读取测试图像
image = cv2.imread('italy2018.jpg')
(h, w) = image.shape[:2]

# 图像预处理
blob = cv2.dnn.blobFromImage(cv2.resize(image, (300, 300)), 1.0, (300, 300), (104.0, 177.0, 123.0))

# 定义置信度阈值
confidence_threshold = 0.5

# 进行人脸检测
net.setInput(blob)
detections = net.forward()

for i in range(0, detections.shape[2]):
    confidence = detections[0, 0, i, 2]
    if confidence > confidence_threshold:
        box = detections[0, 0, i, 3:7] * np.array([w, h, w, h])
        (startX, startY, endX, endY) = box.astype("int")
        text = "{:.2f}%".format(confidence * 100)
        y = startY - 10 if startY - 10 > 10 else startY + 10
        cv2.rectangle(image, (startX, startY), (endX, endY), (0, 0, 255), 2)
        cv2.putText(image, text, (startX, y), cv2.FONT_HERSHEY_SIMPLEX, 0.45, (0, 0, 255), 2)

# 显示结果
plt.axis('off')
plt.imshow(cv2.cvtColor(image, cv2.COLOR_BGR2RGB))
plt.show()

运行这段代码后，会出现一个窗口显示人脸检测的结果。所有球员的脸都被准确识别，人脸周围用红色方块标记，并显示置信度百分比，且所有置信度百分比都大于我们设定的阈值0.5。

3. 数学表达式的LaTeX书写

LaTeX在Python中被广泛使用，以下是一些在Python中使用LaTeX书写数学表达式的示例：

使用matplotlib
可以直接将LaTeX表达式作为各种可接受它的函数的参数。例如，使用 title() 函数绘制图表标题：

import matplotlib.pyplot as plt
%matplotlib inline

plt.title(r'$\alpha > \beta$')

在Jupyter Notebook的Python单元格中使用
要在Jupyter Notebook的单元格中直接书写LaTeX表达式，需要导入 IPython.display 模块，并使用 Latex() 函数显示表达式：

from IPython.display import Latex
Latex('$\\frac{a}{b}$')

在Jupyter Notebook的Markdown单元格中使用
在Markdown单元格中，可以将LaTeX表达式放在两个 $$ 之间。例如：

$$c = \sqrt{a^2 + b^2}$$

下标和上标
使用 _ 和 ^ 符号创建下标和上标，例如：

r'$\alpha_i > \beta_i$'

分数、二项式和堆叠数字
分别使用 \frac{}{} 、 \binom{}{} 和 \stackrel{}{} 命令创建分数、二项式和堆叠数字，例如：

r'$\frac{3}{4} \binom{3}{4} \stackrel{3}{4}$'

根式
使用 \sqrt[]{} 命令生成根式，例如：

r'$\sqrt{2}$'

字体
默认数学符号字体为斜体，可以使用不同的命令更改字体，例如：

from IPython.display import Math
display(Math(r'\mathrm{Roman}'))
display(Math(r'\mathit{Italic}'))
display(Math(r'\mathtt{Typewriter}'))
display(Math(r'\mathcal{CALLIGRAPHY}'))

** accents**
可以在任何符号前使用重音命令添加重音，例如：

\acute a or \'a
\bar a
\breve a
\ddot a or \"a
\dot a or \.a
\grave a or \à
\hat a or \^a
\tilde a or \~a
\vec a
\overline{abc}

符号
可以使用大量的TeX符号，包括小写希腊字母、大写希腊字母、希伯来字母、分隔符、大符号、标准函数名、二元运算和关系符号、箭头符号和杂项符号等。

4. 开放数据源

总结

本文介绍了基于OpenCV的图像分析和计算机视觉的实践示例，包括边缘检测和人脸检测。边缘检测通过不同的滤波器实现，在处理过程中需要注意输出数据类型的选择以避免边缘信息丢失。人脸检测使用深度学习技术，借助预训练的神经网络模型可以准确识别图像中的人脸。此外，还介绍了在Python中使用LaTeX书写数学表达式的方法以及一些开放数据源。这些内容为进一步深入研究图像分析和计算机视觉提供了良好的基础。

mermaid流程图

graph TD;
    A[开始] --> B[选择测试图像];
    B --> C{图像类型};
    C -- 黑白箭头图像 --> D[边缘检测代码实现];
    C -- 灰度渐变图像 --> E[修改代码并应用边缘检测];
    D --> F[分析滤波器效果];
    F --> G{是否存在边缘缺失};
    G -- 是 --> H[调整输出数据类型并计算绝对值];
    G -- 否 --> I[显示结果];
    H --> I;
    E --> I;
    I --> J[人脸检测];
    J --> K[加载神经网络模型];
    K --> L[图像预处理];
    L --> M[定义置信度阈值];
    M --> N[进行人脸检测];
    N --> O[显示人脸检测结果];
    O --> P[结束];

边缘检测与滤波器效果深入剖析

在实际应用中，如果我们更关注水平或垂直方向的边缘，Sobel滤波器可能是更好的选择；而如果需要全面检测各方向的边缘，Laplacian滤波器则更为合适。

人脸检测流程细化

人脸检测的整个流程可以进一步细化为以下步骤：
1. 模型加载 ：使用 cv2.dnn.readNetFromCaffe() 函数加载预训练的神经网络模型，需要提供 prototxt 文件和 caffemodel 文件的路径。
python net = cv2.dnn.readNetFromCaffe('deploy.prototxt.txt', 'res10_300x300_ssd_iter_140000.caffemodel')
2. 图像读取 ：使用 cv2.imread() 函数读取测试图像，并获取图像的高度和宽度。
python image = cv2.imread('italy2018.jpg') (h, w) = image.shape[:2]
3. 图像预处理 ：使用 cv2.dnn.blobFromImage() 函数对图像进行预处理，包括调整图像大小和归一化。
python blob = cv2.dnn.blobFromImage(cv2.resize(image, (300, 300)), 1.0, (300, 300), (104.0, 177.0, 123.0))
4. 设定阈值 ：定义一个置信度阈值，用于筛选检测结果。
python confidence_threshold = 0.5
5. 检测执行 ：将预处理后的图像输入到神经网络中进行检测，并获取检测结果。
python net.setInput(blob) detections = net.forward()
6. 结果筛选与标记 ：遍历检测结果，筛选出置信度高于阈值的检测框，并在图像上标记出来。
python for i in range(0, detections.shape[2]): confidence = detections[0, 0, i, 2] if confidence > confidence_threshold: box = detections[0, 0, i, 3:7] * np.array([w, h, w, h]) (startX, startY, endX, endY) = box.astype("int") text = "{:.2f}%".format(confidence * 100) y = startY - 10 if startY - 10 > 10 else startY + 10 cv2.rectangle(image, (startX, startY), (endX, endY), (0, 0, 255), 2) cv2.putText(image, text, (startX, y), cv2.FONT_HERSHEY_SIMPLEX, 0.45, (0, 0, 255), 2)
7. 结果展示 ：使用 matplotlib 显示标记后的图像。
python plt.axis('off') plt.imshow(cv2.cvtColor(image, cv2.COLOR_BGR2RGB)) plt.show()

LaTeX数学表达式应用拓展

LaTeX数学表达式在数据可视化和学术写作中有着广泛的应用。除了前面提到的基本用法，我们还可以利用LaTeX表达式来创建更复杂的图表标题和标签。例如，在绘制函数图像时，可以使用LaTeX表达式来准确描述函数：

import matplotlib.pyplot as plt
import numpy as np

x = np.linspace(0, 10, 100)
y = np.sin(x)

plt.plot(x, y)
plt.title(r'$y = \sin(x)$')
plt.xlabel(r'$x$')
plt.ylabel(r'$y$')
plt.show()

这样可以使图表更加专业和准确。

开放数据源的使用建议

对于不同的开放数据源，我们可以根据自己的需求选择合适的数据源进行数据获取。以下是一些使用建议：
- Data.gov ：如果需要获取美国政府相关的各类数据，这是一个很好的选择。可以通过关键词搜索快速定位所需数据。
- Socrata ：除了提供数据，还具备可视化工具，适合对数据进行初步探索和分析。可以利用其可视化功能快速了解数据的分布和趋势。
- U.S. Census Bureau ：专注于美国公民的人口、地理和教育等方面的数据，对于研究美国社会和经济情况非常有帮助。
- UN3ta ：包含联合国的统计数据库，适合进行国际数据的比较和分析。
- European Union Open Data Portal ：提供欧盟机构的大量数据，对于研究欧盟相关的政策、经济和社会问题有重要价值。
- Data.gov.uk ：英国政府的数据源，包含丰富的英国书籍和出版物的元数据，对于文化和出版领域的研究有一定的参考意义。
- The CIA World Factbook ：提供全球各国的历史、人口、经济和政府等方面的信息，适合进行国际形势和各国国情的研究。

mermaid流程图

graph LR;
    A[选择数据源] --> B{数据源类型};
    B -- 政府综合数据 --> C[Data.gov];
    B -- 含可视化工具 --> D[Socrata];
    B -- 美国人口地理数据 --> E[U.S. Census Bureau];
    B -- 联合国统计数据 --> F[UN3ta];
    B -- 欧盟机构数据 --> G[European Union Open Data Portal];
    B -- 英国出版元数据 --> H[Data.gov.uk];
    B -- 全球各国信息 --> I[The CIA World Factbook];
    C --> J[数据获取];
    D --> J;
    E --> J;
    F --> J;
    G --> J;
    H --> J;
    I --> J;
    J --> K[数据处理与分析];
    K --> L[结果展示];