《昇思25天学习打卡营第4天 | mindspore Transforms 数据变换常见用法》

1. 背景:

使用 mindspore 学习神经网络,打卡第四天;

2. 训练的内容:

使用 mindspore 的常见的数据变换 Transforms 的使用方法;

3. 常见的用法小节:

支持一系列常用的 Transforms 的操作

3.1 Vision Transforms 操作:

Rescale: 缩放,平移因子
Normalize: 图像归一化
HWC2CHW: 转换图像格式

# 接收一个数据增强操作序列,然后将其组合成单个数据增强操作
composed = transforms.Compose(
    [
        vision.Rescale(1.0 / 255.0, 0),
        vision.Normalize(mean=(0.1307,), std=(0.3081,)),
        vision.HWC2CHW()
    ]
)

train_dataset = train_dataset.map(composed, 'image')
image, label = next(train_dataset.create_tuple_iterator())
print(image.shape)

3.2 Text Transforms

文本数据需要有分词(Tokenize)、构建词表、Token转Index等操作。这里简单介绍其使用方法

Tokenizer

# Tokenizer允许用户自由实现分词策略。随后我们利用map操作将此分词器应用到输入的文本中,对其进行分词
texts = ['Welcome to Beijing']
test_dataset = GeneratorDataset(texts, 'text')

def my_tokenizer(content):
    return content.split()

test_dataset = test_dataset.map(text.PythonTokenizer(my_tokenizer))
print(next(test_dataset.create_tuple_iterator()))

生成词表

# 使用Vocab生成词表。这里我们选择使用Vocab.from_dataset方法从数据集中生成词表
vocab = text.Vocab.from_dataset(test_dataset)
print(vocab.vocab())

# 转成 Index
test_dataset = test_dataset.map(text.Lookup(vocab))
print(next(test_dataset.create_tuple_iterator()))

3.3 Lambda Transforms

通过 lambda 函数进行 transforms 变化

# Lambda函数是一种不需要名字的函数
test_dataset = GeneratorDataset([1, 2, 3], 'data', shuffle=False)
test_dataset = test_dataset.map(lambda x: x * 2)
print(list(test_dataset.create_tuple_iterator()))

def func(x):
    return x * x + 2

test_dataset = test_dataset.map(lambda x: func(x))

print(list(test_dataset.create_tuple_iterator()))

活动参与链接:

https://xihe.mindspore.cn/events/mindspore-training-camp

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值