识别手写数字项目:
1.torchvision.datasets.MNIST 将每一组样本tensor与标签tensor组成了一个列表
2.样本数据为各像素组成的3维张量,标签数据为每个图片的实际数字
3.模型预测的结果为长度为10的向量,每个值代表0-9这九个数字的预测可能性,数字最大的那个位置即为预测结果,如[1,2,2,2,2,2,8,6,6,6,], 预测结果就是7(数字8所在的位置)
4.cv2只能处理3维的numpy格式,且通道维度要放在最右边
5.torch.transpose一次只能转换2个维度,转换多个维度使用permute
5.每次使用 for i in X,相当于将X降一维
6.torch.load要加上weights_only=False, cnn = torch.load("net.pkl", weights_only=False)
计算机视觉相关概念:
RGB:(0-255)
HSV:色相,饱和度,明度
亮度:明度的大小,通过+-值来调节,从RGB图上调整
对比度:最大与最小明度的差值,通过*>1或者<1的值来调节,从RGB图上调整
饱和度:颜色的种类,通过HSV图调节,调整S
图像的高频:图像的边缘以及噪点
图像的低频:图像的连续的色块
图像平滑:抑制高频,去掉噪点。问题是会使图像边沿模糊

图像锐化:增强高频部分,与平滑相反,边沿增强
边缘提取:
直方图均衡化:是图像的亮度分布比较均匀
图像滤波:可以实现图像锐化或者平滑或者边缘提取
形态学运算:
腐蚀:

膨胀:
形态学梯度:膨胀图-腐蚀图可以得到轮廓图
计算机视觉中的特征工程:
特征工程:人为地设计输入X,特征提取-特征选择-建模,在深度学习中前两步通过CNN完成,也就是通过卷积得到有效的X,再通过FC等层完成分类
图像匹配:计算相似性
卷积神经网络:
卷积层:对图像与滤波矩阵做内积,实际是线性运算,y=kx+b

设计的时候采用小卷积核,加深网络,减少计算量
激活函数:为了增加网络的非线性表达能力,ReLU函数
BatchNorm层:对输出结果进行规范化
全连接层:是一个学习特征向量的过程
Dropout层:
905

被折叠的 条评论
为什么被折叠?



