深度学习图像识别:从基础到CNN实践
1. 数字图像基础
如今,数字图像无处不在,这得益于数码相机、网络摄像头和带摄像头的手机的广泛普及。图像捕捉变得轻而易举,也因此产生了大量的图像数据。能够处理图像为机器人技术、自动驾驶、医学、安全和监控等领域带来了新的应用。
计算机处理图像时,会将其转换为数据。计算机以像素数据流的形式将图像发送到显示器,因此计算机图像最好用像素值矩阵来表示,矩阵中的每个位置对应图像中的一个点。
现代计算机图像使用32位来表示颜色(红色、蓝色、绿色各8位,透明度即alpha通道8位),不过,使用24位也能创建真彩色图像。计算机图像通过三个重叠的矩阵来表示颜色,分别对应红、绿、蓝(RGB)三种颜色。混合不同比例的这三种颜色可以表示人类可见的任何标准颜色,但无法表示具有非凡感知能力的人所看到的颜色。大多数人最多能看到100万种颜色,这在24位颜色提供的16777216种颜色范围内。而四色视者能看到1亿种颜色,计算机无法分析他们所看到的内容。
通常,计算机将图像作为一个三维矩阵进行处理,包括高度、宽度和通道数。对于RGB图像,通道数为3;对于黑白图像,通道数为1。灰度图像是一种特殊的RGB图像,其三个通道的值相同。对于灰度图像,一个矩阵就可以用一个数字表示256种灰度颜色。
早期,神经网络从业者直接将图像连接到神经网络,每个图像像素连接到网络中的一个输入节点,后面再加上一个或多个隐藏层和输出层。这种方法在处理小图像和解决小问题时效果尚可,但最终被其他方法所取代。研究人员开始使用其他机器学习算法,或者进行大量的特征创建,将图像转换为新的处理数据,以帮助算法更好地识别图像。例如,方向梯度直方图(HOG)就是一种计算方法,用于检测图
超级会员免费看
订阅专栏 解锁全文
5046

被折叠的 条评论
为什么被折叠?



