深入浅出Pytorch之机器视觉案例，学习总结

最新推荐文章于 2025-09-27 01:08:09 发布

原创

最新推荐文章于 2025-09-27 01:08:09 发布 · 1.3k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #计算机视觉 #神经网络

本文深入解析深度学习四大核心任务：图像分类、目标检测、图像分割与图像生成，涵盖神经网络结构、损失函数、数据集及工程实践，为深度学习研究者提供全面指南。

图像分类任务简介

图像分类神经网络基本结构就是：

卷积层
线性层
Softmax层

目标检测任务简介

回归框(Bounding Box)
分类(Classification)

根据两个小任务的同步异步来分：

One-stage	Two-stage
SSD/ YOLO/ Retinanet	R-CNN
速度快，精度稍低	速度慢，精度高

分别用什么损失函数？
目标检测网络基本结构

总的方法论：

不同级别的卷积神经网络中提取不同尺寸的目标的特征信息

图像分割任务简介

分割是针对像素分类, 每一个像素分批一个类别
转置卷积进行上采样，得到最后和原图大小一致的输出张量

在这里插入图片描述

图像生成任务简介

这次属于无监督任务！
给定图像数据集，通过深度学习模型训练，产生服从这些图像数据集分布的图像。

神经网络生成图像的先验分布，使用分布生成张量，然后通过转置卷积生成目标图像.

如何训练？

VAE	GAN
MSE（输入，输出）	交替输入真实图像和生成网络生成的图像，使得输出概率接近0.5

p=0.5等于判别器已经分不出来是真还是假了。

常用深度学习数据集

1 VOC

20 类

2 COCO

80 类

3 ImageNet

1000类

深度学习工程的结构

project/
	csrc/
	data.py
	utils.py
	model.py
	train,py
	inference.py

csrv文件夹：存放c/c++编写的库
data.py：数据载入包括Dataset和DataLoader类
utils.py：模型模块的预处理工具
model.py
train.py
inference.py：测试，推理

LeNet手把手

1 建立模型

import pytorch
import torch.nn as nn

class LeNet(nn.Module):
	def __init__(self):
		super().__init__()
		self.conv1= self.Sequential(
			nn.Conv2d(1,6,3),
			#nn.BatchNorm2d(6)
			nn.ReLu(inplace=True),
			nn.MaxPool2d(2,2))
			
		self.conv1= self.Sequential(
			nn.Conv2d(6,16,3),