深入解析AugLy图像增强库：从基础操作到实战应用

最新推荐文章于 2025-06-16 19:43:08 发布

褚铃尤Kerwin

最新推荐文章于 2025-06-16 19:43:08 发布

阅读量321

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00383/article/details/148507926

深入解析AugLy图像增强库：从基础操作到实战应用

AugLy A data augmentations library for audio, image, text, and video. 项目地址: https://gitcode.com/gh_mirrors/au/AugLy

前言

AugLy是一个强大的多模态数据增强库，特别针对图像、视频、音频和文本数据提供了丰富的增强功能。本文将重点介绍AugLy中的图像增强模块，通过实际代码示例展示如何利用该库进行各种图像处理操作。

环境准备

在开始使用AugLy图像增强功能前，需要安装必要的依赖包：

!pip install -U augly[image]
!sudo apt-get install python3-magic

安装完成后建议重启运行时环境以确保所有组件正确加载。python3-magic包用于文件类型识别，是AugLy的依赖项之一。

基础图像操作

图像加载与缩放

AugLy提供了便捷的图像处理工具，首先我们来看如何加载并调整图像尺寸：

import os
import augly.image as imaugs
import augly.utils as utils
from IPython.display import display

# 获取测试图像路径
input_img_path = os.path.join(utils.TEST_URI, "image", "inputs", "dfdc_1.jpg")

# 使用scale函数缩小图像
input_img = imaugs.scale(input_img_path, factor=0.2)
display(input_img)

scale函数通过factor参数控制缩放比例，这里设置为0.2表示缩小到原图的20%。

创意图像增强

生成表情包效果

AugLy可以将普通图片转换为流行的表情包风格：

display(
    imaugs.meme_format(
        input_img,
        caption_height=75,
        meme_bg_color=(0, 0, 0),
        text_color=(255, 255, 255),
    )
)

参数说明：

caption_height: 底部文字区域高度
meme_bg_color: 文字背景颜色(RGB)
text_color: 文字颜色(RGB)

像素重排效果

通过随机重排像素可以创建独特的视觉效果：

meta = []
display(imaugs.shuffle_pixels(input_img, factor=0.3, metadata=meta))
print(meta)

factor参数控制像素重排的强度，范围在0到1之间。metadata列表会记录增强操作的详细信息，包括输入输出尺寸和操作强度等。

高级图像变换

带边界框的旋转

AugLy支持在变换图像时同步处理边界框：

meta = []
display(
    imaugs.rotate(
        input_img,
        degrees=15,
        metadata=meta,
        bboxes=[(20, 6, 250, 180)],
        bbox_format="pascal_voc",
    )
)
print(meta)

参数说明：

degrees: 旋转角度
bboxes: 边界框列表，格式为(x_min, y_min, x_max, y_max)
bbox_format: 边界框格式，支持pascal_voc等标准格式

透视变换

使用类式API实现透视变换：

meta = []
aug = imaugs.PerspectiveTransform(sigma=20.0)
display(aug(input_img, metadata=meta))
print(meta)

sigma参数控制变换的强度，值越大变形效果越明显。

随机增强与组合变换

随机长宽比调整

AugLy提供了随机参数版本的增强操作：

meta = []
aug = imaugs.RandomAspectRatio()
display(aug(input_img, metadata=meta))
print(meta)

这种增强会从预设范围内随机选择参数值，适合数据增强场景。

组合多个变换

通过Compose可以将多个增强操作串联起来：

meta = []
aug = imaugs.Compose(
    [
        imaugs.Saturation(factor=2.0),
        imaugs.OverlayOntoScreenshot(
            template_filepath=os.path.join(
                utils.SCREENSHOT_TEMPLATES_DIR, "mobile.png"
            ),
        ),
        imaugs.Scale(factor=0.6),
    ]
)
display(aug(input_img, metadata=meta))
print(meta)

这个例子依次执行了：

提高饱和度
将图像叠加到手机屏幕模板上
缩放图像

与其他框架集成

与PyTorch Transform集成

AugLy增强可以直接作为PyTorch的transform使用：

import torchvision.transforms as transforms

aug = transforms.Compose(
    [
        imaugs.Brightness(factor=2.0),
        imaugs.RandomRotation(),
        transforms.ToTensor(),
    ]
)
type(aug(input_img))  # 输出: torch.Tensor

这种集成方式使得AugLy可以无缝融入PyTorch训练流程。

NumPy数组支持

对于使用NumPy数组的图像数据，AugLy提供了专门的包装器：

import numpy as np
from augly.image import aug_np_wrapper, overlay_emoji

np_image = np.zeros((300, 300))
np_aug_img = aug_np_wrapper(np_image, overlay_emoji, **{'opacity': 0.5, 'y_pos': 0.45})
type(np_aug_img)  # 输出: numpy.ndarray

aug_np_wrapper函数将任何AugLy增强函数适配到NumPy数组输入。