来源 | Natural Language Processing with PyTorch
作者 | Rao,McMahan
译者 | Liangchu
校对 | gongyouliu
编辑 | auroral-L
全文共5190字,预计阅读时间40分钟。
上下拉动翻看这个目录
5.1 为什么要学习嵌入?
5.1.1 嵌入的有效性
5.1.2 学习词嵌入的方式
5.1.3 预训练词嵌入的实践
5.1.3.1 加载嵌入
5.1.3.2 词嵌入之间的关系
5.2 示例:学习词嵌入的连续词袋
5.2.1 Frankenstein数据集
5.2.2 Vocabulary,Vectorizer和DataLoader
5.2.3. CBOWClassifier模型
5.2.4 训练例程
5.2.5 模型评估和预测
5.3 示例:使用预训练嵌入用于文档分类的迁移学习
5.3.1 AG News数据集
5.3.2 Vocabulary,Vectorizer和DataLoader
5.3.3 NewsClassifier模型
5.3.4 训练例程
5.3.5 模型评估和分类
5.3.5.1 在测试集上评估
5.3.5.2 预测新的新闻头条的类别
5.4 总结
5.3 示例:使用预训练嵌入用于文档分类的迁移学习
前面的示例使用了一个嵌入层(embedding layer)做简单分类,这个例子的构建基于三个方面:首先加载预训练的词嵌入,然后通过对整个新闻文章进行分类来微调这些预训练的嵌入,最后使用卷积神经网络来捕获单词之间的空间关系。
在本例中,我们使用 AG News 数据集。为了对 AG News 中的单词序列进行建模,我们引入了Vocabulary类的一个变体SequenceVocabulary,以绑定一些对建模序列至关重要的token。Vectorizer将演示如何使用这个类。
在描述数据集以及向量化的minibatch是如何构建的之后,我们将逐步将预先训练好的单词向量加载到一个Embedding层中,并演示如何自定义它们。然后,该模型将预训练嵌入层与“示例:使用 CNN 对姓氏进行分类”一节中使用的CNN相结合使用。为了将模型的复杂性扩展到更真实的结构,我们还确定了使用正则化技术dropout的地方。接下来我们讨论训练例程。与第四章和本章中的前两个示例相比,训练例程几乎没什么变化,对此你并不会感到奇怪。最后,我们通过在测试集上对模型进行评价并讨论结果来总结这个例子。
5.3.1 AG News数据集
AG News 数据集是在2005年学术界为实验数据挖掘和信息提取方法而收集的100多万篇新闻文章的集合。这个例子的目的是说明预训练词嵌入在文本分类中的有效性。在本例中,我们使用精简版的120000篇新闻文章,它们平均分为四类:体育(Sports)、科学(Science)/技术(Technology)、世界(World)和商业(Business)。除了精简数据集之外,我们还将文章标题作为我们的观察重点,并创建多元分类任务来预测给定标题的类别。
和以前一样,我们通过删除标点符号、在标点符号周围添加空格(如逗号、撇号和句点)来预处理文本,并将文本转换为小写。此外,我们将数据集拆分为训练集、验证集和测试集,这是通过按类标签聚合数据点,然后将每个数据点分配给三个拆分集中的一个完成的。通过这种方式,保证了跨数据集的类分布是相同的。
如下例(5-11)所示,NewsDataset.__getitem__()方法遵循一个你很熟悉的基本公式:表示模型输入的字符串由数据集中的特定行检索,由Vectorizer进行向量化,并与表示新闻类别(类标签)的整数配对。
示例 5-11:NewsDataset.__getitem__()方法
class NewsDataset(Dataset):
@classmethod
def load_dataset_and_make_vectorizer(cls, news_csv):
"""Load dataset and make a new vectorizer from scratch
Args:
surname_csv (str): location of the dataset
Returns:
an instance of SurnameDataset
"""
news_df = pd.read_csv(news_csv)
train_news_df = news_df[news_df.split=='train']
return cls(news_df, NewsVectorizer.from_dataframe(train_news_df))
def __getitem__(self, index):
"""the primary entry point method for PyTorch datasets
Args:
index (int): the index to the data point
Returns:
a dict holding the data point's features (x_data) and label (y_target)
"""
row = self._target_df.iloc[index]
title_vector = \
self._vectorizer.vectorize(row.title, self._max_seq_length)
category_index = \
self._vectorizer.category_vocab.lookup_token(row.category)
return {'x_data': title_vector