data text html ch,干货 | NLP数据处理工具——torchtext

最新推荐文章于 2021-08-03 21:55:45 发布

weixin_35980160

最新推荐文章于 2021-08-03 21:55:45 发布

阅读量627

点赞数

文章标签： data text html ch

原标题：干货 | NLP数据处理工具——torchtext

本文为 AI 研习社社区用户 @Dendi独家投稿内容，欢迎扫描底部社区名片访问 @Dendi的主页，查看更多内容。

01.概述

在处理NLP任务时除了需要优秀的神经网络还需要方便、高效的数据预处理工具。今天介绍一款优秀的NLP数据处理工具torchtext。

NLP常见的数据预处理工作如下：

Load File：数据文件加载；

Tokenization：分词；

Create Vocabulary：创建字典;

Indexify：将词与索引进行映射;

Word Vectors：创建或加载词向量；

Padding or Fix Length：按长度对文本进行补齐或截取；

Dataset Splits：划分数据集(如将数据集划分问训练集、验证集、测试集)；

Batching and Iterators：将数据集按固定大小划分成Batch；

使用torchtext完成以上工作：

使用 torchtext.data.Field 定义样本各个字段的处理流程(分词、数据预处理等)；

使用 torchtext.data.Example 将 torchtext.data.Field 处理成一条样本；

使用 torchtext.data.Dataset 将 torchtext.data.Example 处理成数据集，也可对数据集进行划分等工作；

使用 torchtext.data.Iterators 将 torchtext.data.Dataset 按照 batch_size 组装成 Batch 供模型训练使用；

使用torchtext.data.vocab和torchtext.data.Vectors创建词典、词和索引的一一对应、下载或使用预训练的词向量等；

02.安装

使用如下命令安装：pip install torchtext

03.文档

官方教程：https://torchtext.readthedocs.io/en/latest/index.html

04.主要的Package

torchtext.datatorchtext.data.Dataset：数据集；

torchtext.data.Example：样本；

torchtext.data.Fields：样本的属性(如：content、label)；

torchtext.data.Iterators：将数据集封装成Batch，并提供迭代器；

tochtext.vocab

torchtext.vocab.Vocab：词典相关；

torchtext.vocab.Vectors：词向量相关；

05.实践

05-1.Field

API

classtorchtext.data.Field(

sequential=True, use_vocab=True, init_token=None, eos_token=None,

fix_length=None, dtype=torch.int64, preprocessing=None, postprocessing=None,

lower=False, tokenize=None, tokenizer_language='en', include_lengths=False,

batch_first=False, pad_token='', unk_token='', pad_first=False,

truncate_first=False, stop_words=None, is_target=False

)

#...

def build_vocab(self, *args, **kwargs)

重要的参数：

sequential：是否是可序列化数据(类似于字符串数据)，默认值是 True；

user_vocab：是否使用 Vocab 对象，如果取 False，则该字段必须是数值类型；默认值是True；

tokenize：是一个 function 类型的对象(如 string.cut 、jieba.cut 等)，用于对字符串进行分词；

batch_first：如果该属性的值取 True，则该字段返回的 Tensor 对象的第一维度是 batch 的大小；默认值是False；

fix_length：该字段是否是定长，如果取 None 则按同 batch 该字段的最大长度进行pad；

重要函数：

build_vocab：为该Field创建Vocab；

Code Demo

数据集(第一个字段是label，第二个字段是content)：

0 我不退我也不买。我就看戏

0 我建不了系统拒绝

0 跟诸葛撞单了

0 305没了

1 我今天很开心，很开心，微信

1 那是微信号

1 高材生你不用彩虹，如果哪天想跟我的单可以加我微信

1 高材生可以加我微信

1 群主你微信多少

1 老哥，有没有微信群啥的？一起聊球呀？

...

代码：

# 分词函数

defcontent_tokenize(text):

return[item foritem instr(text)]

# 创建content字段的Field

CONTENT = data.Field(sequential=True, tokenize=content_tokenize, batch_first=True)

# 创建label字段的Field

LABEL = data.Field(sequential=False, use_vocab=False)

# 为 CONTENT 字段创建词向量

CONTENT.build_vocab(data_set)

05-2.Example

API

classtorchtext.data.Example:

@classmethod

fromCSV(data, fields, field_to_index=None)

@classmethod

fromJSON(data, fields)

@classmethod

fromdict(data, fields)

@classmethod

fromlist(data, fields)

@classmethod

fromtree(data, fields, subtrees=False)

该类有5个类函数，可以从csv、json、dict、list、tree等数据结构中创建Example，常用的是fromlist；

05-3.Dataset

API

classtorchtext.data.Dataset(examples, fields, filter_pred=None)

重要参数：

examples：Example对象列表;

fields：格式是List(tuple(str, Field))，其中 str 是 Field 对象的描述；

Code Demo

# 读取数据

df = pd.read_csv('./datas/data.txt', sep=' ', encoding='utf8', names=['label', 'content'])

# 创建Field的list

fields = [('label', LABEL), ('content', CONTENT)]

examples = []

forlabel, content inzip(df['label'], df['content']):

examples.append(Example.fromlist([label, content], fields))

data_set = Dataset(examples, fields)

05-4.Vocab

API

classtorchtext.vocab.Vocab(

counter, max_size=None, min_freq=1, specials=[''],

vectors=None, unk_init=None, vectors_cache=None, specials_first=True

)

重要参数：

counter：collections.Counter 类型的对象，用于保存数据(如：单词)的频率；

vectors：预训练的词向量，可以是torch.vocab.Vectors类型，也可以是其他类型；

Code Demo

# 为 CONTENT 字段创建词向量

CONTENT.build_vocab(data_set)

05-5.Vectors

API

classtorchtext.vocab.Vectors(name, cache=None, url=None, unk_init=None, max_vectors=None)

重要参数：

name：保存word vectors的文件；

catch：word vectors文件的缓存目录，默认是.vector_cache；

url：如果缓存文件夹中不存在 word vectors文件，则去该url下载；

unk_init：是一个function 类型的对象，用来初始化词典中不存在的词向量；默认是Tensor.zero_；

max_vecotrs：int类型的数据，限制词典的大小；

Code Demo

# 使用预训练词向量

word_vectors = Vectors('./datas/embeddings/hanzi_embedding_150.bin', cache='./datas/embeddings/')

print(word_vectors.stoi)

结果：

06.结语

torchtext是一个很好用的文本处理工具，本文只是介绍了torchtext常用的功能，可以查看官方文档进一步学习。

* 封面图来源：https://www.developereconomics.com/nlp-wit-luis-api-ai

@Dendi的社区主页，获取更多动态

点击

，查看 @Dendi 的个人主页返回搜狐，查看更多

责任编辑：

data text html ch,干货 | ​NLP数据处理工具——torchtext

data text html ch,干货 | NLP数据处理工具——torchtext