「PyTorch自然语言处理系列」5. 词嵌入和类型(下)

来源 |  Natural Language Processing with PyTorch

作者 | Rao,McMahan

译者 | Liangchu

校对 | gongyouliu

编辑 | auroral-L

全文共5190字,预计阅读时间40分钟。

上下拉动翻看这个目录

5.1 为什么要学习嵌入?
  5.1.1 嵌入的有效性
  5.1.2 学习词嵌入的方式
  5.1.3 预训练词嵌入的实践
   5.1.3.1 加载嵌入
   5.1.3.2 词嵌入之间的关系
 5.2 示例:学习词嵌入的连续词袋
  5.2.1 Frankenstein数据集
  5.2.2 Vocabulary,Vectorizer和DataLoader
  5.2.3. CBOWClassifier模型
  5.2.4 训练例程
  5.2.5 模型评估和预测

5.3 示例:使用预训练嵌入用于文档分类的迁移学习
  5.3.1 AG News数据集
  5.3.2 Vocabulary,Vectorizer和DataLoader
  5.3.3 NewsClassifier模型
  5.3.4 训练例程
  5.3.5 模型评估和分类
  5.3.5.1 在测试集上评估
  5.3.5.2 预测新的新闻头条的类别
 5.4 总结

5.3 示例:使用预训练嵌入用于文档分类的迁移学习

前面的示例使用了一个嵌入层(embedding layer)做简单分类,这个例子的构建基于三个方面:首先加载预训练的词嵌入,然后通过对整个新闻文章进行分类来微调这些预训练的嵌入,最后使用卷积神经网络来捕获单词之间的空间关系。

在本例中,我们使用 AG News 数据集。为了对 AG News 中的单词序列进行建模,我们引入了Vocabulary类的一个变体SequenceVocabulary,以绑定一些对建模序列至关重要的token。Vectorizer将演示如何使用这个类。

在描述数据集以及向量化的minibatch是如何构建的之后,我们将逐步将预先训练好的单词向量加载到一个Embedding层中,并演示如何自定义它们。然后,该模型将预训练嵌入层与“示例:使用 CNN 对姓氏进行分类”一节中使用的CNN相结合使用。为了将模型的复杂性扩展到更真实的结构,我们还确定了使用正则化技术dropout的地方。接下来我们讨论训练例程。与第四章和本章中的前两个示例相比,训练例程几乎没什么变化,对此你并不会感到奇怪。最后,我们通过在测试集上对模型进行评价并讨论结果来总结这个例子。

5.3.1 AG News数据集

AG News 数据集是在2005年学术界为实验数据挖掘和信息提取方法而收集的100多万篇新闻文章的集合。这个例子的目的是说明预训练词嵌入在文本分类中的有效性。在本例中,我们使用精简版的120000篇新闻文章,它们平均分为四类:体育(Sports)、科学(Science)/技术(Technology)、世界(World)和商业(Business)。除了精简数据集之外,我们还将文章标题作为我们的观察重点,并创建多元分类任务来预测给定标题的类别。

和以前一样,我们通过删除标点符号、在标点符号周围添加空格(如逗号、撇号和句点)来预处理文本,并将文本转换为小写。此外,我们将数据集拆分为训练集、验证集和测试集,这是通过按类标签聚合数据点,然后将每个数据点分配给三个拆分集中的一个完成的。通过这种方式,保证了跨数据集的类分布是相同的。

如下例(5-11)所示,NewsDataset.__getitem__()方法遵循一个你很熟悉的基本公式:表示模型输入的字符串由数据集中的特定行检索,由Vectorizer进行向量化,并与表示新闻类别(类标签)的整数配对。

示例 5-11:NewsDataset.__getitem__()方法

class NewsDataset(Dataset):
    @classmethod
    def load_dataset_and_make_vectorizer(cls, news_csv):
        """Load dataset and make a new vectorizer from scratch


        Args:
            surname_csv (str): location of the dataset
        Returns:
            an instance of SurnameDataset
        """
        news_df = pd.read_csv(news_csv)
        train_news_df = news_df[news_df.split=='train']
        return cls(news_df, NewsVectorizer.from_dataframe(train_news_df))


    def __getitem__(self, index):
        """the primary entry point method for PyTorch datasets


        Args:
            index (int): the index to the data point
        Returns:
            a dict holding the data point's features (x_data) and label (y_target)
        """
        row = self._target_df.iloc[index]


        title_vector = \
            self._vectorizer.vectorize(row.title, self._max_seq_length)


        category_index = \
            self._vectorizer.category_vocab.lookup_token(row.category)


        return {'x_data': title_vector
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据与智能

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值