《昇思25天学习打卡营第4天 | mindspore Transforms 数据变换常见用法》

最新推荐文章于 2024-07-07 18:04:44 发布

comedate

最新推荐文章于 2024-07-07 18:04:44 发布

阅读量233

点赞数 1

分类专栏：昇思大模型平台训练营 Python实用源码深度学习文章标签：人工智能 mindspore 昇思大模型平台 transforms

本文链接：https://blog.youkuaiyun.com/comedate/article/details/140088331

版权

Python实用源码同时被 3 个专栏收录

108 篇文章

订阅专栏

深度学习

41 篇文章

订阅专栏

昇思大模型平台训练营

27 篇文章

订阅专栏

1. 背景：

使用 mindspore 学习神经网络，打卡第四天；

2. 训练的内容：

使用 mindspore 的常见的数据变换 Transforms 的使用方法；

3. 常见的用法小节：

支持一系列常用的 Transforms 的操作

3.1 Vision Transforms 操作：

Rescale: 缩放，平移因子
Normalize: 图像归一化
HWC2CHW: 转换图像格式

# 接收一个数据增强操作序列，然后将其组合成单个数据增强操作
composed = transforms.Compose(
    [
        vision.Rescale(1.0 / 255.0, 0),
        vision.Normalize(mean=(0.1307,), std=(0.3081,)),
        vision.HWC2CHW()
    ]
)

train_dataset = train_dataset.map(composed, 'image')
image, label = next(train_dataset.create_tuple_iterator())
print(image.shape)

3.2 Text Transforms

文本数据需要有分词（Tokenize）、构建词表、Token转Index等操作。这里简单介绍其使用方法

Tokenizer

# Tokenizer允许用户自由实现分词策略。随后我们利用map操作将此分词器应用到输入的文本中，对其进行分词
texts = ['Welcome to Beijing']
test_dataset = GeneratorDataset(texts, 'text')

def my_tokenizer(content):
    return content.split()

test_dataset = test_dataset.map(text.PythonTokenizer(my_tokenizer))
print(next(test_dataset.create_tuple_iterator()))

生成词表

# 使用Vocab生成词表。这里我们选择使用Vocab.from_dataset方法从数据集中生成词表
vocab = text.Vocab.from_dataset(test_dataset)
print(vocab.vocab())

# 转成 Index
test_dataset = test_dataset.map(text.Lookup(vocab))
print(next(test_dataset.create_tuple_iterator()))

3.3 Lambda Transforms

通过 lambda 函数进行 transforms 变化

# Lambda函数是一种不需要名字的函数
test_dataset = GeneratorDataset([1, 2, 3], 'data', shuffle=False)
test_dataset = test_dataset.map(lambda x: x * 2)
print(list(test_dataset.create_tuple_iterator()))

def func(x):
    return x * x + 2

test_dataset = test_dataset.map(lambda x: func(x))

print(list(test_dataset.create_tuple_iterator()))