卷积神经网络（CNN）用于图像特征提取的实践指南

原创于 2025-11-09 08:36:15 发布 · 1.1k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#cnn #人工智能 #神经网络

人工智能AI 专栏收录该内容

36 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

卷积神经网络（CNN）的核心优势在于自动学习图像的层次化特征—— 从底层的边缘、纹理，到中层的部件、形状，再到高层的语义概念，无需人工设计特征算子（如 SIFT、HOG）。本文将通过「理论基础 + 代码实践 + 结果分析」的方式，完整演示 CNN 图像特征提取的全流程，涵盖基础原理、实操步骤、关键技巧与应用场景。

一、CNN 特征提取的核心原理

1. 层次化特征表示

CNN 通过堆叠卷积层、池化层、激活层，实现特征的逐步抽象：

底层特征（前 1-2 个卷积块）：边缘、线条、颜色块等低级视觉信息（与图像像素直接相关）；
中层特征（中间 2-3 个卷积块）：纹理、角点、局部部件（如眼睛、车轮）等；
高层特征（全连接层前 / 全局池化层）：图像的语义信息（如 “猫”“汽车”“风景” 的抽象表示）。

2. 关键操作的作用

卷积层：通过滑动卷积核（滤波器）计算局部像素的加权和，捕捉局部特征，核心是「参数共享」（减少计算量）和「局部感受野」（聚焦相邻像素关联）；
激活层（如 ReLU）：引入非线性，让网络能学习复杂特征（否则多层卷积等价于单层线性变换）；
池化层（如 MaxPooling）：下采样（减少特征图尺寸），保留关键特征并提升平移不变性；
全局池化层（如 Global Average Pooling）：将最后一个卷积层的特征图压缩为向量，作为高层特征（替代全连接层，减少过拟合）。

3. 特征提取的两种方式

使用预训练模型（迁移学习）：基于 ImageNet 等大规模数据集训练的 CNN（如 VGG、ResNet、EfficientNet），其高层特征已具备强泛化能力，直接复用或微调后提取特征（工业界首选）；
训练自定义 CNN：针对特定数据集（如医学影像、小样本图像），从零训练轻量型 CNN，提取任务相关特征（需足够数据和算力）。

二、实践环境准备

1. 依赖库安装

核心依赖：PyTorch（或 TensorFlow）、OpenCV（图像预处理）、NumPy（特征存储）、Matplotlib（可视化）。

pip install torch torchvision opencv-python numpy matplotlib scikit-learn

2. 数据集说明

本文使用「Caltech-101 子集」（含猫、狗、飞机等 10 类图像），或直接用自定义图像文件夹（结构如下）：

data/
├── cat/
│   ├── cat1.jpg
│   ├── cat2.jpg
│   └── ...
├── dog/
│   ├── dog1.jpg
│   └── ...
└── airplane/
    └── ...

三、实践一：基于预训练模型的特征提取（推荐）

预训练模型已学习到通用图像特征，无需从零训练，适用于大多数场景（如图像检索、分类、聚类）。以 PyTorch 为例，步骤如下：

1. 步骤 1：加载预训练模型与配置

选择经典 CNN 模型（如 ResNet50，平衡性能与复杂度），移除最后一层全连接层（分类层），保留特征提取部分。

import torch
import torchvision.models as models
import torchvision.transforms as transforms
import cv2
import numpy as np
from PIL import Image

# 1. 配置设备（CPU/GPU）
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 2. 图像预处理（必须与预训练模型训练时一致）
transform = transforms.Compose([
    transforms.Resize((224, 224)),  # 预训练模型输入尺寸（VGG/ResNet默认224x224）
    transforms.ToTensor(),          # 转为Tensor（HWC→CHW，值∈[0,1]）
    transforms.Normalize(           # 标准化（ImageNet数据集统计量）
        mean=[0.485, 0.456, 0.406],
        std=[0.229, 0.224, 0.225]
    )
])

# 3. 加载预训练模型（关闭分类层，保留特征提取器）
model = models.resnet50(pretrained=True)  # 加载预训练权重
# 移除最后一层全连接层（fc），输出为Global Average Pooling后的特征（2048维向量）
feature_extractor = torch.nn.Sequential(*list(model.children())[:-1])
feature_extractor.to(device)
feature_extractor.eval()  # 切换为评估模式（禁用Dropout/BatchNorm更新）

2. 步骤 2：单张图像特征提取

编写函数，输入图像路径，输出 CNN 高层特征向量（2048 维，ResNet50）。

def extract_image_feature(img_path, extractor, transform, device):
    # 读取图像（PIL/OpenCV均可，需统一格式）
    img = Image.open(img_path).convert("RGB")  # 转为RGB（避免灰度图报错）
    # 预处理
    img_tensor = transform(img).unsqueeze(0)  # 增加batch维度（1×3×224×224）
    img_tensor = img_tensor.to(device)
    
    # 提取特征（禁用梯度计算，提升速度）
    with torch.no_grad():
        feature = extractor(img_tensor)  # 输出形状：1×2048×1×1
        feature = feature.squeeze()      # 压缩为2048维向量
        feature = feature.cpu().numpy()  # 转为NumPy数组（便于后续处理）
    
    return feature

# 测试：提取单张图像特征
img_path = "data/cat/cat1.jpg"
feature = extract_image_feature(img_path, feature_extractor, transform, device)
print(f"特征向量维度：{feature.shape}")  # 输出：(2048,)
print(f"特征向量前5个值：{feature[:5]}")  # 输出示例：[0.123, 0.456, 0.789, 0.012, 0.345]

3. 步骤 3：批量图像特征提取

遍历文件夹，提取所有图像的特征，并保存为字典（图像路径→特征向量）。

import os

def batch_extract_features(data_dir, extractor, transform, device):
    features_dict = {}  # key: 图像路径，value: 特征向量
    
    # 遍历所有类别文件夹
    for class_name in os.listdir(data_dir):
        class_dir = os.path.join(data_dir, class_name)
        if not os.path.isdir(class_dir):
            continue
        
        # 遍历文件夹内所有图像
        for img_name in os.listdir(class_dir):
            img_path = os.path.join(class_dir, img_name)
            if img_name.lower().endswith((".jpg", ".png", ".jpeg")):
                try:
                    feature = extract_image_feature(img_path, extractor, transform, device)
                    features_dict[img_path] = feature
                    print(f"已提取：{img_path}")
                except Exception as e:
                    print(f"提取失败：{img_path}，错误：{e}")
    
    return features_dict

# 批量提取特征
data_dir = "data"
features_dict = batch_extract_features(data_dir, feature_extractor, transform, device)

# 保存特征（避免重复计算，后续可直接加载）
np.save("cnn_features.npy", features_dict)

4. 步骤 4：特征可视化与验证

通过「特征相似性计算」验证特征的有效性（相似图像的特征向量距离更小）。

from sklearn.metrics.pairwise import cosine_similarity
import matplotlib.pyplot as plt

# 加载保存的特征
features_dict = np.load("cnn_features.npy", allow_pickle=True).item()
img_paths = list(features_dict.keys())
features = np.array(list(features_dict.values()))

# 选择一张查询图像，计算与其他图像的余弦相似度（越接近1越相似）
query_idx = 0
query_img_path = img_paths[query_idx]
query_feature = features[query_idx:query_idx+1]

# 计算相似度
similarities = cosine_similarity(query_feature, features)[0]
# 排序（取Top5最相似图像，排除自身）
sorted_indices = np.argsort(similarities)[::-1][1:6]

# 可视化结果
plt.figure(figsize=(12, 4))
# 显示查询图像
plt.subplot(1, 6, 1)
plt.imshow(Image.open(query_img_path))
plt.title("Query")
plt.axis("off")

# 显示Top5相似图像
for i, idx in enumerate(sorted_indices):
    plt.subplot(1, 6, i+2)
    plt.imshow(Image.open(img_paths[idx]))
    plt.title(f"Sim: {similarities[idx]:.2f}")
    plt.axis("off")

plt.tight_layout()
plt.show()

5. 关键技巧

模型选择：小数据集 / 低算力用ResNet18（18 层，512 维特征），追求性能用EfficientNetB3（更强特征表达）；
特征层选择：若需中层特征（如纹理），可提取倒数第 2 个卷积块的输出（如 ResNet50 的layer4输出，形状：1×2048×7×7），再通过全局平均池化转为向量；
微调（Fine-tuning）：若数据集与 ImageNet 差异大（如医学影像），可冻结模型前半部分（底层特征），微调后半部分卷积层，让特征更适配任务。

四、实践二：自定义 CNN 特征提取（小样本场景）

若数据集特殊（如自定义细分类任务），可设计轻量型 CNN 从零训练，提取任务专属特征。

1. 步骤 1：定义自定义 CNN 模型

设计简单 CNN（适用于小样本，避免过拟合）：

class CustomCNN(torch.nn.Module):
    def __init__(self, num_classes=10):
        super(CustomCNN, self).__init__()
        # 特征提取器（4个卷积块）
        self.feature_extractor = torch.nn.Sequential(
            # 卷积块1：3→16，224→112
            torch.nn.Conv2d(3, 16, kernel_size=3, stride=1, padding=1),
            torch.nn.ReLU(),
            torch.nn.MaxPool2d(kernel_size=2, stride=2),
            # 卷积块2：16→32，112→56
            torch.nn.Conv2d(16, 32, kernel_size=3, stride=1, padding=1),
            torch.nn.ReLU(),
            torch.nn.MaxPool2d(kernel_size=2, stride=2),
            # 卷积块3：32→64，56→28
            torch.nn.Conv2d(32, 64, kernel_size=3, stride=1, padding=1),
            torch.nn.ReLU(),
            torch.nn.MaxPool2d(kernel_size=2, stride=2),
            # 卷积块4：64→128，28→14
            torch.nn.Conv2d(64, 128, kernel_size=3, stride=1, padding=1),
            torch.nn.ReLU(),
            torch.nn.MaxPool2d(kernel_size=2, stride=2),
            # 全局平均池化：128×14×14 → 128维向量
            torch.nn.AdaptiveAvgPool2d((1, 1))
        )
        # 分类头（训练时用，特征提取时移除）
        self.classifier = torch.nn.Sequential(
            torch.nn.Linear(128, num_classes)
        )
    
    def forward(self, x):
        feature = self.feature_extractor(x)  # 特征提取
        feature = feature.squeeze()          # 128维向量
        output = self.classifier(feature)    # 分类输出
        return output, feature  # 返回分类结果和特征向量

# 初始化模型
model = CustomCNN(num_classes=10).to(device)

2. 步骤 2：训练模型（特征提取器）

使用自定义数据集训练模型，优化特征提取能力：

from torch.utils.data import Dataset, DataLoader
from torch.optim import Adam
from torch.nn import CrossEntropyLoss

# 自定义数据集类
class CustomImageDataset(Dataset):
    def __init__(self, data_dir, transform=None):
        self.data_dir = data_dir
        self.transform = transform
        self.img_paths = []
        self.labels = []
        self.class_to_idx = {class_name: i for i, class_name in enumerate(os.listdir(data_dir))}
        
        # 加载图像路径和标签
        for class_name, idx in self.class_to_idx.items():
            class_dir = os.path.join(data_dir, class_name)
            for img_name in os.listdir(class_dir):
                if img_name.lower().endswith((".jpg", ".png")):
                    self.img_paths.append(os.path.join(class_dir, img_name))
                    self.labels.append(idx)
    
    def __len__(self):
        return len(self.img_paths)
    
    def __getitem__(self, idx):
        img = Image.open(self.img_paths[idx]).convert("RGB")
        label = self.labels[idx]
        if self.transform:
            img = self.transform(img)
        return img, label

# 数据集加载
train_dataset = CustomImageDataset(data_dir="data", transform=transform)
train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True, num_workers=2)

# 训练配置
criterion = CrossEntropyLoss()
optimizer = Adam(model.parameters(), lr=1e-4)
epochs = 20

# 训练过程
model.train()
for epoch in range(epochs):
    total_loss = 0.0
    for imgs, labels in train_loader:
        imgs, labels = imgs.to(device), labels.to(device)
        
        # 前向传播
        outputs, features = model(imgs)
        loss = criterion(outputs, labels)
        
        # 反向传播与优化
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        
        total_loss += loss.item() * imgs.size(0)
    
    avg_loss = total_loss / len(train_loader.dataset)
    print(f"Epoch {epoch+1}/{epochs}, Loss: {avg_loss:.4f}")

# 保存模型（仅保存特征提取器）
torch.save(model.feature_extractor.state_dict(), "custom_cnn_feature_extractor.pth")

3. 步骤 3：用训练好的模型提取特征

加载训练后的特征提取器，复用实践一的特征提取逻辑：

# 加载自定义特征提取器
custom_extractor = CustomCNN().feature_extractor
custom_extractor.load_state_dict(torch.load("custom_cnn_feature_extractor.pth"))
custom_extractor.to(device)
custom_extractor.eval()

# 提取特征（同实践一的函数）
img_path = "data/dog/dog1.jpg"
custom_feature = extract_image_feature(img_path, custom_extractor, transform, device)
print(f"自定义CNN特征维度：{custom_feature.shape}")  # 输出：(128,)