拥抱智能,AI 视频编码技术的新探索

本文介绍了阿里云在AI视频编码技术的前沿工作,包括人物视频生成编码和机器视觉编码。人物视频生成编码利用AI生成压缩方法实现超低码率视频通信,而在机器视觉编码中,通过创新的Inverse-bottleneck结构提高了压缩效率。实验结果显示,AI生成压缩方案在码率降低的情况下仍能保持或超越现有标准(如VVC)的视频质量,对于物体检测等机器视觉任务也有显著性能提升。未来目标是实现复杂场景下的超低码率视频通话及多任务统一编码系统。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

随着视频与交互在日常生活中的作用日益突显,愈发多样的视频场景与不断提高的视觉追求对视频编码提出更高的挑战。相较于人们手工设计的多种视频编码技术,AI 编码可以从大数据中自我学习到更广泛的信号内在编码规律。工业界与学术界发力推动 AI 视频编码标准并进行新框架的探索。

阿里云视频云在 JVET 面向人眼的视频编码标准和 MPEG 面向机器视觉的视频编码标准上均做出重要贡献,对标准发展产生强有力的推动。结合产业需求强劲的视频会议、视频直播等场景,阿里云视频云还开发了 AI 生成式压缩系统,在同等质量下比 VVC 节省 2-3 倍码率,实现真正的超低码率视频通信。

在 LiveVideoStackCon 2021 北京峰会,阿里云智能视频云算法专家王钊,为大家解读阿里云在 AI 视频编码技术的新探索。

文 | 王钊

整理 | LiveVideoStack

image.png

大家好,我是王钊,就职于阿里云视频云,今天的分享主题是 “拥抱智能,AI 视频编码技术的新探索”。主要想和大家介绍阿里云视频云的两个前沿工作。

image.png

分享包括四部分,背景与动机、人物视频生成编码、机器视觉编码和未来展望。

1. 背景与动机

我将从人眼视觉、机器视觉两方面延伸介绍阿里云视频云探索 AI 视频编码技术的背景与动机。

image.png

视频本身的数据量非常大,一张 4K 图像原始大小为 24.3MB、4K 未压缩视频的带宽需求约为 6Gbps、一个超清摄像头每天产生的原始视频高达 63TB,只有进行了视频编码才可以传输、存储。

image.png

随着时代的发展,智能安防、自动驾驶、智慧城市、工业互联网等场景中的视频也可以被机器接收、感知、理解。

image.png

以自动驾驶为例,一辆车主要具备的系统或设备包括摄像头系统(检测前方物体)、夜视红外、雷达测距器、惯性传感器、GPS 定位器及激光雷达(360° 进行扫描),这些都由机器采集图像和视频,再交付给机器进行分析、发现并解决问题、完善功能。

机器在某些维度上的能力优于人类,比如观测精度、感知灵敏度、工作强度耐受性(机器可以全天候运转)、客观性、可量化性。

据 Cisco 统计,以机器视觉为主的从机器到机器的数据传输将占据全球数据传输的 50%,这是非常大的量。

image.png

无论是人眼视觉还是机器视觉,视频编码的原理都是一样的,即依靠视频信号本身存在的相关性:一幅图像中相邻的像素值接近,这是空域相关性;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值