课程笔记-深度学习机器视觉02-深度神经网络-手势识别——From：百度AI Studio

最新推荐文章于 2025-04-24 03:41:33 发布

Jason_____Wang

最新推荐文章于 2025-04-24 03:41:33 发布

阅读量527

点赞数

CC 4.0 BY-SA版权

分类专栏：课程笔记文章标签：深度学习 paddlepaddle python cv 计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Jason_____Wang/article/details/114067277

课程笔记专栏收录该内容

21 篇文章

订阅专栏

本课程深入讲解了深度学习的概念及其在手势识别中的应用，使用PaddlePaddle框架。内容涵盖深度学习解析、图像处理的灰度化和二值化，特别是灰度化方法（如分量法、最大值法、平均值法和加权平均法）以及二值化的OTSU算法。课后作业是复现深度学习网络。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

课程笔记-深度学习机器视觉02-手势识别——From：百度AI Studio

写在前面：

开始第二课的学习，本节课主要讲了深度学习的方法并且应用在了图像识别的手势识别案例中

资料与资源

百度AI STUDIO

课程链接：深度学习7日入门-CV疫情特辑

————————————————————————————————————————
正课部分：

深度学习解析

什么是深度学习？

继续上节课的；解深度学习是机器学习的一种模型。
测量空间（表象）==》特征空间（概念）

深度学习使用三部曲

在这里插入图片描述

深度学习实践

手势识别项目
环境: paddle paddle框架
参考项目链接：https://aistudio.baidu.com/aistudio/projectdetail/1578532

图像处理的灰度化和二值化

灰度化：

灰度化，在RGB模型中，如果R=G=B时，则彩色表示一种灰度颜色，其中R=G=B的值叫灰度值，因此，灰度图像每个像素只需一个字节存放灰度值（又称强度值、亮度值），灰度范围为0-255。

灰度化的方法：

约定：
f(i,j) 为二维图片中坐标为 (i,j) 的点的灰度值，R(i,j)、G(i,j)、B(i,j)分别为坐标为 (i,j) 的点在red、green、bule分量上的值。

分量法
将彩色图像中的三分量的亮度作为三个灰度图像的灰度值，可根据应用需要选取一种灰度图像。

f1(i,j)=R(i,j)
f2(i,j)=G(i,j)
f3(i,j)=B(i,j)

最大值法
将彩色图像中的三分量亮度的最大值作为灰度图的灰度值。

f(i,j) = max(R(i,j),G(i,j),B(i,j))

平均值法
将彩色图像中的三分量亮度求平均得到一个灰度图。

f(i,j) = (R(i,j)+G(i,j)+B(i,j))/3

加权平均法
根据重要性及其它指标，将三个分量以不同的权值进行加权平均。由于人眼对绿色的敏感最高，对蓝色敏感最低，因此，按下式对RGB三分量进行加权平均能得到较合理的灰度图像。

f(i,j)=0.30*R(i,j)+0.59*G(i,j)+0.11*B(i,j)

二值化

图像二值化（ Image Binarization）就是将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的黑白效果的过程。

思考：在进行二值化时，不能简单武断的根据范围去对图像进行二值化（否则存在当图片整体较暗或者较亮时会出现二值化后为纯黑或纯白的情况），而是应该根据图像的区域对比进行划分

进一步思考：由此可见，图像所携带的信息存在于像素与周围点的差异当中，当有效的差异越大，则图像理论上可以携带更多信息。

二值化方法：
为了得到理想的二值图像，一般采用封闭、连通的边界定义不交叠的区域。所有灰度大于或等于阈值的像素被判定为属于特定物体，其灰度值为255表示，否则这些像素点被排除在物体区域以外，灰度值为0，表示背景或者例外的物体区域。 [1]
如果某特定物体在内部有均匀一致的灰度值，并且其处在一个具有其他等级灰度值的均匀背景下，使用阈值法就可以得到比较的分割效果。如果物体同背景的差别表现不在灰度值上（比如纹理不同），可以将这个差别特征转换为灰度的差别，然后利用阈值选取技术来分割该图像。动态调节阈值实现图像的二值化可动态观察其分割图像的具体结果。

OTSU算法:
OTSU的中心思想是阈值T应使目标与背景两类的类间方差最大。对于一幅图像，设当前景与背景的分割阈值为t时，前景点占图像比例为w0，均值为u0，背景点占图像比例为w1，均值为u1。则整个图像的均值为u = w0u0+w1u1。建立目标函数g(t)=w0*(u0-u)^2+w1*(u1-u)2，g(t)就是当分割阈值为t时的类间方差表达式。OTSU算法使得g(t)取得全局最大值，当g(t)为最大时所对应的t称为最佳阈值。OTSU算法又称为最大类间方差法。
Kittle
Kittler算法与Otsu方法效果接近，但速度更快，更适宜应用于像素质量较高的图像中。
它的中心思想是，计算整幅图像的梯度灰度的平均值，以此平均值做为阈值

课后作业复现一个深度学习网络

立下flag：尝试一下用paddle2.0的网络去跑一下这个数据集，如果成功的话回来写心得感想！！！
（现在要去搞烦人的环境配置问题了T-T）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。