「PyTorch自然语言处理系列」5. 词嵌入和类型（下）-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_43045873/article/details/121186959

来源 | Natural Language Processing with PyTorch

作者 | Rao，McMahan

译者 | Liangchu

校对 | gongyouliu

编辑 | auroral-L

全文共5190字，预计阅读时间40分钟。

上下拉动翻看这个目录

5.1 为什么要学习嵌入？
5.1.1 嵌入的有效性
5.1.2 学习词嵌入的方式
5.1.3 预训练词嵌入的实践
5.1.3.1 加载嵌入
5.1.3.2 词嵌入之间的关系
5.2 示例：学习词嵌入的连续词袋
5.2.1 Frankenstein数据集
5.2.2 Vocabulary，Vectorizer和DataLoader
5.2.3. CBOWClassifier模型
5.2.4 训练例程
5.2.5 模型评估和预测

5.3 示例：使用预训练嵌入用于文档分类的迁移学习
5.3.1 AG News数据集
5.3.2 Vocabulary，Vectorizer和DataLoader
5.3.3 NewsClassifier模型
5.3.4 训练例程
5.3.5 模型评估和分类
5.3.5.1 在测试集上评估
5.3.5.2 预测新的新闻头条的类别
5.4 总结

5.3 示例：使用预训练嵌入用于文档分类的迁移学习

前面的示例使用了一个嵌入层（embedding layer）做简单分类，这个例子的构建基于三个方面：首先加载预训练的词嵌入，然后通过对整个新闻文章进行分类来微调这些预训练的嵌入，最后使用卷积神经网络来捕获单词之间的空间关系。

在本例中，我们使用 AG News 数据集。为了对 AG News 中的单词序列进行建模，我们引入了Vocabulary类的一个变体SequenceVocabulary，以绑定一些对建模序列至关重要的token。Vectorizer将演示如何使用这个类。

在描述数据集以及向量化的minibatch是如何构建的之后，我们将逐步将预先训练好的单词向量加载到一个Embedding层中，并演示如何自定义它们。然后，该模型将预训练嵌入层与“示例：使用 CNN 对姓氏进行分类”一节中使用的CNN相结合使用。为了将模型的复杂性扩展到更真实的结构，我们还确定了使用正则化技术dropout的地方。接下来我们讨论训练例程。与第四章和本章中的前两个示例相比，训练例程几乎没什么变化，对此你并不会感到奇怪。最后，我们通过在测试集上对模型进行评价并讨论结果来总结这个例子。

5.3.1 AG News数据集

AG News 数据集是在2005年学术界为实验数据挖掘和信息提取方法而收集的100多万篇新闻文章的集合。这个例子的目的是说明预训练词嵌入在文本分类中的有效性。在本例中，我们使用精简版的120000篇新闻文章，它们平均分为四类：体育（Sports）、科学（Science）/技术（Technology）、世界（World）和商业（Business）。除了精简数据集之外，我们还将文章标题作为我们的观察重点，并创建多元分类任务来预测给定标题的类别。

和以前一样，我们通过删除标点符号、在标点符号周围添加空格（如逗号、撇号和句点）来预处理文本，并将文本转换为小写。此外，我们将数据集拆分为训练集、验证集和测试集，这是通过按类标签聚合数据点，然后将每个数据点分配给三个拆分集中的一个完成的。通过这种方式，保证了跨数据集的类分布是相同的。

如下例（5-11）所示，NewsDataset.__getitem__()方法遵循一个你很熟悉的基本公式：表示模型输入的字符串由数据集中的特定行检索，由Vectorizer进行向量化，并与表示新闻类别（类标签）的整数配对。

示例 5-11：NewsDataset.__getitem__()方法

class NewsDataset(Dataset):
    @classmethod
    def load_dataset_and_make_vectorizer(cls, news_csv):
        """Load dataset and make a new vectorizer from scratch


        Args:
            surname_csv (str): location of the dataset
        Returns:
            an instance of SurnameDataset
        """
        news_df = pd.read_csv(news_csv)
        train_news_df = news_df[news_df.split=='train']
        return cls(news_df, NewsVectorizer.from_dataframe(train_news_df))


    def __getitem__(self, index):
        """the primary entry point method for PyTorch datasets


        Args:
            index (int): the index to the data point
        Returns:
            a dict holding the data point's features (x_data) and label (y_target)
        """
        row = self._target_df.iloc[index]


        title_vector = \
            self._vectorizer.vectorize(row.title, self._max_seq_length)


        category_index = \
            self._vectorizer.category_vocab.lookup_token(row.category)


        return {'x_data': title_vector