视频编码概述

本文介绍了视频编码的基础概念,包括图像的分类、表示方法、视频的定义及其类型。强调了视觉信息的优势,并探讨了模拟和数字图像、视频帧率、颜色模型以及HSI和RGB颜色空间。还涉及了人眼视觉特性在视频评价系统中的应用,以及视频质量评价的客观和主观方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

算是曾经的笔记,里面有一些地方存在一些歧义,也欢迎大家讨论和指出,共同进步。不过想想自己开题失误,甚至,算了,不多说了,继续加油吧。

视频图像的基本概念
**1.“图”(picture或graphic):**表示用手描绘或用摄影器材拍摄得到的人物、 景物等的相似物;
“像”(image):人的视觉系统对人物、 景物在大脑中形成的印象或反映。图像是客观和主观的结合。
图像是当光照射在客观存在的物体上, 经其反射或透射;或由发光物体本身发出光能量 ,在人的视觉器官中重现出的物体的视觉信息。

**2. 与听觉信息相比,视觉信息及图像信息具有一系列的优点 :**更直观和确切;高效率性;与多种业务的结合能力;人类约有75%的信息是通过视觉系统获取。

3. 图像的分类
①按照图像信号的传输方式分类:
模拟图像: f(x,y),x,y是连续的;数字图像: f(m,n),m和n是离散的;
②按照图像的存在形式分类:
实际图像:照片等;抽象图像:函数 f(x,y), f(m,n)。
③按照图像的光谱特性分类
二值图像
灰度图像
彩色图像
④按照图像是否随时间而变化分类
活动图像:视频
静止图像

4.图像的表示方法
①模拟图象的函数表示
f(x,y)=∫0→∞A(x,y,λ)E(λ)dλ
A是视觉对象的辐射能量;
λ是波长;
E(λ)代表波长为λ的单位辐射能量所产生的等效亮度,称为亮度敏感函数。
对于彩色图像,通常可按照三基色原理分解为红、绿、蓝三个单色分量图像,即:
fr(x,y)=∫0→∞A(x,y,λ)Er(λ)dλ
fg(x,y)=∫0→∞A(x,y,λ)Eg(λ)dλ
fb(x,y)=∫0→∞A(x,y,λ)Eb(λ)dλ
对于一幅实际图像,在空间和亮度上的取值都是受限的,即满足:
0≤f(x,y)≤fmax
其中,xmin≤x≤xmax;ymin≤y≤ymax,范围和亮度有限
②数字图像的表示
数字图像是指由被称作象素的小块区域组成的二维矩阵。
将物理图象行列划分后, 每个小块区域称为像素(pixel)。——每个像素包括两个属性:位置和灰度。
对于单色即灰度图像(8bit) 而言, 每个象素的亮度用一个数值来表示, 通常数值范围在0到255之间;
0表示黑、 255表示白, 而其它表示灰度级别。
用位置和灰度来表示图像。
灰度图像可以表示为一个M行N列的矩阵:
在这里插入图片描述
5. 视频:动态图像,是一组图像按时间顺序的连续展示
按信号组成和存储方式的不同:
模拟视频:是由连续的模拟信号组成的图像序列, 像电影、 电视和录像的画面
数字视频:是一系列连续的数字图像序列。 是指与具体媒体格式所对应的数字视频,如DV格式数字视频、 DVD光盘格式数字视频、 AVI桌面格式数字视频、 MP4固体存储数字视频等。
帧: 根据视觉暂留原理,要使人的视觉产生连续的动态感觉, 每秒钟图像的播放帧数要在24~ 30(帧频FPS)。
视频、图像的Matlab读取、显示实例。
6.matlab读取图像

X= imread(‘1.jpg’);
imshow(X,[]);

在这里插入图片描述
7.图像的颜色模型: 波长由长到短,颜色依次为:红、橙、黄、绿、青、蓝、紫。
①RGB:红绿蓝,C=rR+gG+bB加色系统
②CYM:减色系统
在这里插入图片描述
③HSI(HSV): 从视觉的角度看, 颜色有其色彩(hue)、 饱和度(saturation)和亮度(lightness)决定。或者说 HSV(hue, saturation, value) 。
色彩
指的是这种颜色是红的、 绿的、 还是蓝的, 它是一种颜色区别于另一种颜色的最重要特征。
饱和度
是颜色的纯度, 是在单色光中掺入白光的度量。 单色光的饱和度是100%,指颜色的深浅程度。
亮度
即是指光的强度。是光作用于人眼所引起的明亮程度的感觉。
比较而言, RGB和CMY颜色模型是面向硬件的。
HSV颜色模型则是面向用户的。
H:表示颜色点与红色间的夹角
S:饱和度
V:表示颜色的明暗值
纯色颜料对应于V=1, S=1。 添加白色改变色浓,相当于减小S, 即在圆锥顶面上从圆周向圆心移动。添加黑色改变色深, 相当于减小V值。 同时改变S、 V值即可获得不同的色调。
在这里插入图片描述
人的视觉系统经常采用HSI颜色空间, 它比RGB颜色空间更符合人的视觉特性。
 从RGB颜色空间转换到HSI颜色空间, 具体公式如下:
I = 1/3(R + G + B)
S= 1-3/(R+G+B)*[min(R,G,B)]
H= arccos{[(R-G)+(R-B)]/2/[(R-G)2+(R-B)(G-B)0.5]
8. YUV(也称YCrCb) 是被欧洲电视系统所采用的一种颜色编码方法(属于PAL) 。
与RGB视频信号传输相比, YUV最大的优点在于只需占用极少的频宽(RGB要求三个独立的视频信号同时传输) 。
其中“Y”表示明亮度(Luminance或Luma) , 也就是灰度值;而“U”和“V”表示的则是色度Chrominance或Chroma) , 作用是描述影像色彩及饱和度, 用于指定像素的颜色。

8.视频评价系统
①人眼视觉特性: 眼的适应性——人眼的适应性包括暗适应性和亮适应性。
② 对比灵敏度:针对图像总体描述亮度的差异,对比度定义为最大亮度与最小亮度之比。
③ 人眼的空间分辨力和时间分辨力
空间分辨力指人眼区分相邻的两个发光点的能力。从空间频率域上看, 人眼视觉呈现低通特性。
时间分辨力指人眼对于随时间而变化的目标的分辨能力。 从时间频率域上看, 人眼视觉也呈现低通特性。
④ 马赫(Mach)效应
当亮度发生跃变时, 视觉上会感到边缘的亮侧更亮些, 而暗侧更暗些。 这种特性有助于增强目标的轮廓。
在这里插入图片描述
⑤ 可见度阈值
 可见度阈值是指正好可以被看到的干扰值, 低于该阈值的干扰是觉察不出来的。
 测量发现, 在边缘的亮、 暗两侧情况相似, 即邻近边缘处的可见度阈值比远离边缘处增加3~4倍。 这就是说, 边缘“掩盖”了边缘邻近像素的信号干扰。 这种效应称为视觉掩盖效应。
应注意不要将马赫效应与掩盖效应相混淆, 前者是指边缘两边亮度分别有更亮和更暗的感觉。
 可见度阈值和掩盖效应对图像编码量化器的设计有重要作用, 利用这一视觉特性, 在图像的边缘区域可以容忍较大的量化误差, 因而可使量化级减少些, 从而可降低数码率。
⑥图像的质量测定
图像质量的含义包括两方面:图像的保真度(Fidelity) 和理解度(Intelligibility) 。
保真度是指一幅图像与参考图像之间的相似程度,反映图像传输和处理性能的优劣; 理解度则指图像与人们的某种目的的符合程度。
⑦评价方法
在这里插入图片描述
客观方法: 定义一个数学公式, 然后对待评价的图像进行运算, 得到一个唯一的数字量作为测度结果。 通常我们使用均方误差(MSE, mean square error)和信噪比(SNR, signal noise ratio) 。
均方误差MSE:误差平方和/M×N
SNR:10×lg(信号平方/MSE)
PSNR:10×lg(fmax^2/MSE)
数字视频的质量直接反映了用户使用视频通信业务时的主观感叐,因而要求采用合理的标准对视频质量迚行快速、准确的评价。图像质量评价标准;视频传输质量评估。

摄像机测试内容: 一、分辨率 二、色彩还原度 三、灰阶度 四、频宽测试 五、 CCD平整度 六、阻抗匹配 七、人脸识别 八、 模糊 九、 漏光 十、 干扰 十一、暗角、阴影 十二、拖尾 十三、噪点 十四、失真 十五、 低照度 十六、 强光抑制 十七、 色滚 十八、 宽劢态 十九、 白平衡 二十、 图像层次 二十一、 亮点

视频传输质量评估:
主观评价
——观察者打分统计计算平均值作为评价
结果(平均评价分值, MOS);
双刺激连续质量分级法——交替播放待评估序列和基准序列迚行直接质量比较,观察者打分,平均值作为
评价结果(最大程度降低图像场景情节对评测影响);
单刺激连续质量评价方法——只播放待评价序列,观察者观看同时根据评分表打分。

衡量多媒体通信业务的视频质量时, 经常用以下标准评估接收视频主观视觉效果:
图像跳跃:由于网络拥塞造成丢包使图像帧间运动不平滑,有类似快进现象
模糊度:由于编码器为了适应固定码率而产生的,图像高频细节部分丢失造成图像边缘模糊
噪声 :由于采集和存储图像过程中,高频细节劣化产生的附加像素点
块效应:由于传输误码造成的,是所有基于DCT技术压缩都可能出现的现象

缺陷:
观察者需经过培训,人力物力投入大,为时较长;
图像内容不情节千发万化,观察者个体差异大,人的视觉反应
到主观感觉上有其心理因素,容易収生主观上的偏差;
主观评价无法迚行实时监测;
仅仅只有平均分,如果评测分数低,无法准确判断问题的根源。

客观测量
——相对评估和绝对评估
相对评估:将压缩或经传输的视频不原始视频比较以获得相对评估指标值,由此评估图像质量;一般用于视频制作时的质量评估,准确性高;
均方误差,PSNR,SNR
绝对评估:直接对压缩或经传输的视频进行评估获得指标值,由此评估图像质量;一般在线观看测试,准确性稍低。

在视频通信业务的实际应用中, 无法完全保证端到端的视频传送质量, 在通信和互联网应用中信源端和接收端对图像质量主要影响因素:
可用宽带: 衡量用户从网络叏得互联网视频应用数据的能力
丢包: 延迟超出缓存能力时,会发生丢包,影响图像质量 (丢包是在通信中是指通信数据包丢失。数据在通信网络上是以数据包为单位传输的,每个数据包中有表示数据信息和提供数据路由的帧。)
码率波动 : 播放视频时接收端要求稳定码流,码率波动过大会导致解码器主动丢包以保证前后视频质量一致,引起质量下降
延时: 导致图像质量劣化的最根本原因

考虑人眼感知特性的质量评价方法:
视频图像质量评价即是衡量压缩重建视频图像与原始视频图像之间差别程度的一个研究领域。
可以依据在衡量差别程度过程中是否考虑人类视觉系统的感知特性,将视频图像质量评价方法分为两类:
1.传统的不考虑人类视觉系统感知特性,只考虑重建像素值与原始像素值之间差别程度的评价方法(定义为像素值测度下的评价方法);
2.考虑人类视觉系统的感知特性的评价方法(定义为视觉测度下的评价方法)。

视觉测度下的评价方法
典型的如:结构相似性索引 (Structural Similarity Index, SSIM) ,恰可感知差值( Just noticeable difference, JND) 。
在视频多媒体通信系统中, 压缩重建视频图像的最终接收端是人眼, 所以相比于像素值测度下的评价方法, 视觉测度下的评价方法能够更加准确评判视频图像质量。

SSIM
原理:人眼观看视频图像之间的差别时并不是以像素点为单位观察的, 而是以视频图像中的物体(或区域) 为单位观察的。 SSIM通过计算区域内所有像素点的均值、 方差、 协方差信息反映区域整体结构上发生的变化, 从而反映图像质量。

在这里插入图片描述
JND
基本原理:人类视觉系统感知视觉信号刺激强度的有限性。当两个信号强度非常接近时,人眼是察觉不出他们之间差别的。
在这里插入图片描述
实验结果比较:
编码设置:
视频序列: Football,分辨率: 352X288, 帧率: 30fps
编码器: HM16.17, 编码结构:全帧内编码结构, 编码帧数: 1
量化参数(Quantization Parameter, QP): 10、 20、 30、 40、 50
在这里插入图片描述
算法原理:综合考虑视频的内容特性(例如:亮度、 纹理复杂度、边界、 运动等) 及人类视觉系统的感知特性(例如:亮度掩盖效应、 纹理掩盖效应、 边界掩盖效应、 运动掩盖效应、 人眼选择注意机制等) , 建立估计JND的数学模型。
分类方法:
按照处理的信号:像素域JND方法(原始视频像素) ;变换域JND方法(DCT系数)
按照是否考虑运动信息:空域JND方法;时域JND方法。

颜色浅意味着复杂度高,这个区域的人眼的识别率低,而黑色区域较平坦,人眼识别率高,噪声感知度高。据此可以决定图像压缩的重点区域。

视频图像主观质量评价实验
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值