Lightly项目教程：如何结构化输入数据以进行自监督学习-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00798/article/details/148577967

Lightly项目教程：如何结构化输入数据以进行自监督学习

lightly A python library for self-supervised learning on images. 项目地址: https://gitcode.com/gh_mirrors/li/lightly

前言

在自监督学习(SSL)领域，数据准备是模型训练的基础环节。Lightly项目提供了一套高效的数据处理工具，能够帮助研究人员和开发者快速构建适合自监督学习的数据管道。本文将详细介绍如何使用Lightly项目中的LightlyDataset类来结构化不同类型的输入数据。

LightlyDataset概述

LightlyDataset是Lightly项目中的核心数据接口类，它为自监督学习任务提供了统一的数据处理方式。这个类的设计考虑了以下关键特性：

同时支持图像和视频数据
兼容有标签和无标签数据场景
内置多种数据增强策略
与主流深度学习框架无缝集成

支持的文件格式

LightlyDataset支持多种常见的媒体文件格式：

图像格式

JPEG (.jpg)
PNG (.png)
TIFF (.tiff)
以及其他Pillow库支持的所有格式

视频格式

MOV (.mov)
MP4 (.mp4)
AVI (.avi)

无标签图像数据集构建

这是最常见的自监督学习场景，我们只需要提供包含图像的目录即可：

from lightly.data import LightlyDataset
from lightly.transforms import SimCLRTransform

# 定义数据增强变换
transform = SimCLRTransform()
# 创建数据集实例
dataset = LightlyDataset(input_dir='image_dir/', transform=transform)

注意：系统会自动为所有图像分配默认标签0。

带标签图像数据集构建

当数据具有弱标签时，可以按照子目录结构组织数据：

labeled_image_dir/
├── label_1/
│   ├── img1.jpg
│   └── img2.jpg
├── label_2/
│   ├── img1.jpg
│   └── img2.jpg
...

代码实现：

from lightly.data import LightlyDataset
from lightly.transforms import SimCLRTransform

transform = SimCLRTransform()
labeled_dataset = LightlyDataset(input_dir='labeled_image_dir/', transform=transform)

系统会自动将子目录名作为对应图像的标签。

视频数据集处理

Lightly项目的一个显著优势是能够直接处理视频文件，无需预先提取帧：

video_dir/
├── video1.mp4
├── video2.mov
└── subdir/
    ├── video3.avi
    └── video4.avi

代码实现：

from lightly.data import LightlyDataset
from lightly.transforms import SimCLRTransform

transform = SimCLRTransform()
video_dataset = LightlyDataset(input_dir='video_dir/', transform=transform)

注意：

需要安装视频处理依赖：pip install "lightly[video]"
视频帧的随机访问速度比处理提取后的帧稍慢
但可以节省大量磁盘空间

与其他数据源的集成

PyTorch数据集集成

Lightly可以无缝集成torchvision中的标准数据集：

import torchvision
from lightly.transforms import SimCLRTransform

transform = SimCLRTransform(input_size=32, gaussian_blur=0.0)
dataset = torchvision.datasets.CIFAR10(
    "datasets/cifar10", download=True, transform=transform
)

Hugging Face数据集集成

处理Hugging Face数据集同样简单：

import torch
from datasets import load_dataset
from lightly.transforms import SimCLRTransform

dataset = load_dataset("uoft-cs/cifar10", trust_remote_code=True)
transform = SimCLRTransform()

def apply_transform(batch):
    batch["image"] = [transform(img.convert("RGB")) for img in batch["image"]]
    return batch

dataset.set_transform(apply_transform)
dataloader = torch.utils.data.DataLoader(dataset["train"])

数据增强策略

自监督学习高度依赖数据增强来学习不变性表示。Lightly提供了多种增强方式：

内置增强：SimCLRTransform等预设增强策略
torchvision增强：兼容标准PyTorch增强
albumentations增强：支持高性能图像增强库

示例代码：

# torchvision增强
torchvision_transform = T.Compose([
    T.RandomHorizontalFlip(),
    T.ToTensor(),
])

# albumentations增强
albumentation_transform = A.Compose([
    A.CenterCrop(height=128, width=128),
    A.Normalize(mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225)),
    ToTensorV2(),
])

# Lightly内置增强
lightly_transform = SimCLRTransform()