Task04:PyTorch生态简介

这篇博客介绍了PyTorch的三个重要生态组件:torchvision专注于图像处理,提供数据集、预处理模型和IO操作;PyTorchVideo则致力于视频处理,包括SOTA模型、数据预处理和移动端优化;torchtext则涉及文本数据的处理,包含数据集、词表工具和评估指标。这些库为计算机视觉和自然语言处理提供了强大支持。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

0. 教程地址

https://github.com/datawhalechina/thorough-pytorch

1. torchvision(图像)

  1. torchvision.datasets:

    计算机视觉领域常见的数据集,包括CIFAR、EMNIST、Fashion-MNIST等

  2. torchvision.transforms:

    数据预处理方法,可以进行图片数据的放大、缩小、水平或垂直翻转等

  3. torchvision.models:

    预训练模型,包括图像分类、语义分割、物体检测、实例分割、人体关键点检测、视频分类等模型

  4. torchvision.io:

    视频、图片和文件的IO操作,包括读取、写入、编解码处理等

  5. torchvision.ops:

    计算机视觉的特定操作,包括但不仅限于NMS,RoIAlign(MASK R-CNN中应用的一种方法),RoIPool(Fast R-CNN中用到的一种方法)

  6. torchvision.utils:

    图片拼接、可视化检测和分割等操作

2. PyTorchVideo(视频)

  1. 基于 PyTorch:

    使用 PyTorch 构建。使所有 PyTorch 生态系统组件的使用变得容易。

  2. Model Zoo:

    PyTorchVideo提供了包含I3D、R(2+1)D、SlowFast、X3D、MViT等SOTA模型的高质量model zoo(目前还在快速扩充中,未来会有更多SOTA model),并且PyTorchVideo的model zoo调用与PyTorch Hub做了整合,大大简化模型调用,具体的一些调用方法可以参考下面的【使用 PyTorchVideo model zoo】部分。

  3. 数据预处理和常见数据:

    PyTorchVideo支持Kinetics-400, Something-Something V2, Charades, Ava (v2.2), Epic Kitchen, HMDB51, UCF101, Domsev等主流数据集和相应的数据预处理,同时还支持randaug, augmix等数据增强trick。

  4. 模块化设计:

    PyTorchVideo的设计类似于torchvision,也是提供许多模块方便用户调用修改,在PyTorchVideo中具体来说包括data, transforms, layer, model, accelerator等模块,方便用户进行调用和读取。

  5. 支持多模态:

    PyTorchVideo现在对多模态的支持包括了visual和audio,未来会支持更多模态,为多模态模型的发展提供支持。

  6. 移动端部署优化:

    PyTorchVideo支持针对移动端模型的部署优化(使用前述的PyTorchVideo/accelerator模块),模型经过PyTorchVideo优化了最高达7倍的提速,并实现了第一个能实时跑在手机端的X3D模型(实验中可以实时跑在2018年的三星Galaxy S8上,具体请见Android Demo APP)。

3. torchtext(文本)

  1. 数据处理工具

    torchtext.data.functional、torchtext.data.utils

  2. 数据集

    torchtext.data.datasets

  3. 词表工具

    torchtext.vocab

  4. 评测指标

    torchtext.metrics

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值