AI 和 AWS 为传统媒体内容创建超分辨率

目录

介绍

架构

解决方案演练


介绍


如今,媒体和娱乐公司拥有大量在高分辨率技术出现之前以低分辨率或标准分辨率创建的传统媒体内容,例如电影、电视剧、音乐视频和体育精彩片段。鉴于当今显示技术的进步,观众普遍要求视频内容以高清格式(如高清或 4K)交付,以在较大屏幕上获得增强的观看体验。通过以更高分辨率(高清、4K 或更高)提供传统媒体资产,提高增加收入的机会。

深度学习和生成式 AI 模型的最新进展使得通过超分辨率等技术大幅提高图像质量成为可能。超分辨率可以增加图像的像素密度,使其显得更清晰,并包含更多细节。这些 AI 经过数百万张图像的训练,可以通过单次传递大规模提高图像质量,而无需额外步骤,如典型超分辨率工作流程中常见的去噪滤波器。与简单根据固定数学公式估计新像素的传统技术(如双线性或双三次插值)不同,生成式 AI 技术,如生成对抗网络(GAN)、视觉转换器和扩散模型(如 Stable Diffusion)学会智能地填充细节、纹理和边缘,同时保留细节并减少锯齿状边缘等伪影。

在本博客文章中,我们提出了一种端到端解决方案,结合使用  Real-ESRGANRReal-ESRGANeal-ESRGANReal-ESRGAN 和  SwinIRSwinIRSwinIR 以及 AWS 服务来编排工作流程,可以将低分辨率视频作为输入来生成 4 倍分辨率的视频。例如,我们可以在不到 60 分钟的时间内将一小时动画电影的分辨率提高 4 倍。该解决方案可用于自动化大规模超分辨率处理媒体内容的过程。

架构

该解决方案使用本地 AWS 服务构建,重点关注以下主要组件:

  1. 允许用户上传标准分辨率视频的用户界面
  2. 执行视频分析和帧提取的事件驱动流程
  3. 通过调用使用 SageMaker 推理工具包构建的 API 端点,并行应用 AI 图像超分辨率
  4. 使用上采样图像和从原始媒体提取的音频进行最终视频构建

考虑到可能从输入产生大量帧的可能性,视频超分辨率工作流程的设计以可扩展性和性能为首要目标。在本博客文章中,我们采用 HPC 方法来解决这些挑战。


首先,我们使用 AWS ParallelClusterAWSAWS ParallelClusterParallelClusterAWS ParallelCluster 来支持端到端视频超分辨率工作流程的计算基础架构。AWS ParallelCluster 是一项 AWS 服务,允许用户在云中快速构建 HPC 应用程序。对于存储层,我们使用 Amazon FSx For LustreAmazon FSx For LustreAmazon FSx For Lustre 作为跨所有计算节点挂载的共享文件系统。Amazon FSx for Lustre 提供亚毫秒级延迟、高达数百 GBps 的吞吐量和高达数百万 IOPS,优化了视频帧分析和处理的 I/O 吞吐量。

对于 AI 视频超分辨率任务,我们利用使用 Amazon SageMaker 推理工具包SageMaker SageMaker 推理工具包构建的自定义 docker 容器,这是一个在基于 GPU 的计算节点上的开源机器学习推理框架。所有 Amazon SageMaker 端点都与给定的 FSx for Lustre 文件系统集成,以实现高吞吐量和低延迟的并行图像生成。最后,我们提供了一个用户界面,允许用户上传视频,从而触发自动化端到端视频超分辨率过程的工作流程。

下图更详细地描述了我们的工作流程:

图 1. 视频超分辨率架构图

解决方案演练

在下一节中,我们将在较高层次上演练部署视频超分辨率工作流程。

先决条件

  • 安装了 docker 的开发环境(注意:此解决方案已在 SageMaker notebook上使用 ml.g5.2xlarge 实例类型进行了测试)
  • 具有访问 Amazon Elastic Container Registry(Amazon ECR)的权限的 AWS Identity and Access Management(IAM),可创建存储库并将 docker 映像推送到注册表
  • 至少有两个私有子网和一个公共子网的 Amazon Virtual Private Cloud(Amazon VPC)
  • 用于存储媒体内容和工作流程所需相关脚本的 Amazon Simple Storage Service(Amazon S3)存储桶
  • 通过 SSH 访问 ParallelCluster 头节点的密钥对:Create a key pair - AWS ParallelCluster

模型部署

为了在上采样图像中保持高保真度,我们测试了几种图像上采样模型并观察了结果。根据我们的评估,我们发现 Real-ESRGAN 和 SwinIR 在去除伪影和恢复纹理细节方面都取得了出色的质量。关于模型评估和技术,我们建议阅读与 Real-ESRGAN 论文和 SwinIR 论文相关的内容。

Real-ESRGAN 模型

通过基于图像结构质量和模型延迟的评估,我们发现 Real-ESRGAN 模型能够以低延迟实现图像的优质超分辨率,尤其是对于动画和动漫媒体内容。与其他生成式 AI 解决方案(如 Stable Diffusion)相比,我们发现该模型在保持高保真度的同时,能够实现更好的生成一致性,而不会引入伪影。我们的解决方案利用此模型对动画视频进行上采样。我们使用 SageMaker Pytorch 推理工具包构建了一个 docker 容器,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值