随着视频与交互在日常生活中的作用日益突显,愈发多样的视频场景与不断提高的视觉追求对视频编码提出更高的挑战。相较于人们手工设计的多种视频编码技术,AI 编码可以从大数据中自我学习到更广泛的信号内在编码规律。工业界与学术界发力推动 AI 视频编码标准并进行新框架的探索。
阿里云视频云在 JVET 面向人眼的视频编码标准和 MPEG 面向机器视觉的视频编码标准上均做出重要贡献,对标准发展产生强有力的推动。结合产业需求强劲的视频会议、视频直播等场景,阿里云视频云还开发了 AI 生成式压缩系统,在同等质量下比 VVC 节省 2-3 倍码率,实现真正的超低码率视频通信。
在 LiveVideoStackCon 2021 北京峰会,阿里云智能视频云算法专家王钊,为大家解读阿里云在 AI 视频编码技术的新探索。
文 | 王钊
整理 | LiveVideoStack
大家好,我是王钊,就职于阿里云视频云,今天的分享主题是 “拥抱智能,AI 视频编码技术的新探索”。主要想和大家介绍阿里云视频云的两个前沿工作。
分享包括四部分,背景与动机、人物视频生成编码、机器视觉编码和未来展望。
1. 背景与动机
我将从人眼视觉、机器视觉两方面延伸介绍阿里云视频云探索 AI 视频编码技术的背景与动机。
视频本身的数据量非常大,一张 4K 图像原始大小为 24.3MB、4K 未压缩视频的带宽需求约为 6Gbps、一个超清摄像头每天产生的原始视频高达 63TB,只有进行了视频编码才可以传输、存储。
随着时代的发展,智能安防、自动驾驶、智慧城市、工业互联网等场景中的视频也可以被机器接收、感知、理解。
以自动驾驶为例,一辆车主要具备的系统或设备包括摄像头系统(检测前方物体)、夜视红外、雷达测距器、惯性传感器、GPS 定位器及激光雷达(360° 进行扫描),这些都由机器采集图像和视频,再交付给机器进行分析、发现并解决问题、完善功能。
机器在某些维度上的能力优于人类,比如观测精度、感知灵敏度、工作强度耐受性(机器可以全天候运转)、客观性、可量化性。
据 Cisco 统计,以机器视觉为主的从机器到机器的数据传输将占据全球数据传输的 50%,这是非常大的量。
无论是人眼视觉还是机器视觉,视频编码的原理都是一样的,即依靠视频信号本身存在的相关性:一幅图像中相邻的像素值接近,这是空域相关性;