图像处理中(C,H,W)格式解析

原创已于 2025-04-22 12:10:58 修改 · 4.7k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#图像处理 #计算机视觉 #人工智能

于 2023-08-21 20:07:49 首次发布

Python 专栏收录该内容

5 篇文章

订阅专栏

博客介绍了图片中C（通道数）、H（高度）、W（宽度）的含义。C常见为RGB颜色空间的三个通道，计算机存储RGB图片时C取值0、1、2对应R、G、B；H、W确定图片点位置，结合C可得到该点各通道像素值决定颜色，还以狗图片左眼珠为例用Python代码验证。

该文章已生成可运行项目，

其中，C是指Channel,即通道数，最常见的RGB颜色空间就有三个通道，即：

R（红）、G（绿）、B（蓝），

计算机中存储RGB格式的图片时,C有三个取值，分别为0,1,2，分别对应R,G,B

H是指高度，即纵坐标值，是指从原点（图片最左上角点）出发，水平向右为x轴，竖直向下为y轴，建立坐标系后，y轴的取值。

W是指宽度，即横坐标值，也即上述坐标系中横坐标x的取值。

故由上可知，由H和W,我们能确定图片中某一点的位置，然后C分别取0,1，2, 即分别可得到该点的红通道像素值，绿通道像素值，蓝通道像素值，然后三个像素值叠加起来共同决定这一点呈现什么颜色。

下面以这张狗的图片举例:

我们选择狗的左眼珠为例，其位置坐标(x,y)约为(481,501), 即H=501,W=481

python代码:

print(Image[0][501][481]*255) # 输出该点红通道像素值,
# 由于图像已存储为tensor类型，故像素值已经被除以255了，需要乘回来。
print(Image[1][501][481]*255) # 输出该点绿通道像素值
print(Image[2][501][481]*255) # 输出该点蓝通道像素值

输出结果为: