2025-7-27日学习

识别手写数字项目:

1.torchvision.datasets.MNIST 将每一组样本tensor与标签tensor组成了一个列表

2.样本数据为各像素组成的3维张量,标签数据为每个图片的实际数字

3.模型预测的结果为长度为10的向量,每个值代表0-9这九个数字的预测可能性,数字最大的那个位置即为预测结果,如[1,2,2,2,2,2,8,6,6,6,], 预测结果就是7(数字8所在的位置)

4.cv2只能处理3维的numpy格式,且通道维度要放在最右边

5.torch.transpose一次只能转换2个维度,转换多个维度使用permute

5.每次使用 for i in X,相当于将X降一维

6.torch.load要加上weights_only=False, cnn = torch.load("net.pkl", weights_only=False)

计算机视觉相关概念:

RGB:(0-255)

HSV:色相,饱和度,明度

亮度:明度的大小,通过+-值来调节,从RGB图上调整

对比度:最大与最小明度的差值,通过*>1或者<1的值来调节,从RGB图上调整

饱和度:颜色的种类,通过HSV图调节,调整S

图像的高频:图像的边缘以及噪点

图像的低频:图像的连续的色块

图像平滑:抑制高频,去掉噪点。问题是会使图像边沿模糊

图像锐化:增强高频部分,与平滑相反,边沿增强

边缘提取:

直方图均衡化:是图像的亮度分布比较均匀

图像滤波:可以实现图像锐化或者平滑或者边缘提取

形态学运算:

        腐蚀:

        膨胀:

        形态学梯度:膨胀图-腐蚀图可以得到轮廓图

计算机视觉中的特征工程:

特征工程:人为地设计输入X,特征提取-特征选择-建模,在深度学习中前两步通过CNN完成,也就是通过卷积得到有效的X,再通过FC等层完成分类

图像匹配:计算相似性

卷积神经网络:

卷积层:对图像与滤波矩阵做内积,实际是线性运算,y=kx+b

设计的时候采用小卷积核,加深网络,减少计算量

激活函数:为了增加网络的非线性表达能力,ReLU函数

BatchNorm层:对输出结果进行规范化

全连接层:是一个学习特征向量的过程

Dropout层:

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值