1. 概述
在当今数字化营销时代,适配各种展示平台的视觉内容呈现成为了一项挑战。随着扩散模型等生成式模型的革新,生成式AI技术在图像和视频领域取得了显著的进步。特别是 Stable Diffusion (SD) 模型的发展,使得能够创造出符合各种风格的高品质、逼真的视觉作品。在这个背景下,视觉延展 (Outpainting) 技术显得格外重要,它能够扩展图像或视频的边界,以匹配不同的显示比例和尺寸需求。
智能广告创意的核心任务之一就是屏蔽纷繁复杂的广告位对客户的创意素材的不同需求,尤其是创意的尺寸。当前进行尺寸适配的主要方式是对已有素材进行裁剪或者套上人工设计的边框模版,以上方式能够解决基本需求,但是裁剪方法会丢失原始素材的部分内容,甚至出现裁剪失败、文字截断、人物残缺等问题。直接套模板的方式往往会遇到破坏图片的原生性、人工设计感强烈、视觉效果降低等问题。因此,我们期望通过生成式AI技术实现创意任意目标尺寸的拓展,同时保持素材原生性,提升投放深度和效果。
随着 AIGC 技术的快速发展,我们也在该领域有持续的研究和探索,与业务相结合,孵化出了视频尺寸魔方、商品视频动效生成等基于扩散模型的AI生成编辑工具。本文将聚焦尺寸魔方,介绍我们在 AIGC 应用于广告创意任意尺寸变换上的探索和实践。商家们能够将上传的图片或视频延展至任意尺寸,从而满足不同广告场景的需求。目前尺寸魔方已经在阿里妈妈素材库、独立工具、品牌广告BP百灵等多项业务场景中完成上线,大幅提高了广告素材的原生适配性和展示投放效果,为商家带来了极大的便利。
2. 技术方案
对于电商场景的原生图片以及视频创意素材进行尺寸延展存在诸多挑战,核心是如何在根据原始素材进行任意尺寸延展的同时保持准确性,完成素材的一键裂变,为此,我们在优质数据集构建、延展模型优化、生成效果策略优化等方面做了诸多探索,整体技术框架图如下:

尺寸魔方整体技术方案主要分为以下步骤:
素材质量过滤:首先对于素材进行预处理,主要是通过人物检测、清晰度、边框检测等对于低质图片以及视频进行过滤;
素材挖掘:根据原始素材,通过算法模型挖掘出更多的显式特征(包括Canny特征、分镜头片段、主体词等),在尺寸延展生成过程中将这些特征以条件的形式注入模型,进一步提升模型性能;
图片&视频延展制作:将原始的素材经过送入编码器中,在潜在空间根据相关条件输入到 UNet 中进行迭代去噪推理,最后得到延展生成后的素材;
超分辨率:通过视觉超分模型提升生成内容的分辨率和清晰度;
后处理策略:通过贴回原图(或原视频)以及边缘区域渐进融合等策略,最大程度上和原始素材一致,保证只向外延展;同时按商家选定的目标尺寸对一次延展结果进行裁剪,得到目标尺寸的素材;
3. 方案细节介绍
3.1 数据工程
为了使模型更好的适配淘宝电商场景,我们为每个图片和视频精细标注了一系列重要属性标签,涵盖了清晰度、文字识别(OCR)、视