NLP模型（三）——FastText介绍

FastText详解

原创

已于 2023-03-09 15:54:17 修改 · 7.8k 阅读

76 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #人工智能 #深度学习

于 2022-11-20 12:41:54 首次发布

文章目录

1. FastText 概述
2. FastText 分类模型
- 2.1 结构
- 2.2 n-gram
3. FastText 词嵌入模型
4. FastText的实现

1. FastText 概述

首先，我们得搞清楚，FastText 是什么？有的地方说是分类模型，有的地方又将其用于词向量，那么，FastText究竟指的是什么？我搜集资料时发现很多视频的up主都没弄清楚，其实，FastText 的指向有两个模型，一个就是指向的文本分类模型，首先在论文《Bag of Tricks for Efficient Text Classification》中提出，另一个自然就是词向量模型，首先在文章《Enriching Word Vectors with Subword Information》中提出，接下来我们将会介绍一下两种FastText模型，并将其复现。

2. FastText 分类模型

FastText的分类模型具有速度快、精度高的优点，其分类的准确率甚至不输于大型的深度学习模型，但是由于其模型简单，其训练的速度则要比后者快上好几个数量级。

2.1 结构

FastText在模型结构上采用了 $CBO W$ 模型的结构，结构如下：
在这里插入图片描述
其中这里的 $x_1,x_2,\cdots,x_N$ 是输入的词，整个网络与 $CBO W$ 都一样，不同之处主要有以下方面

$CBO W$ 预测的是中心词，FastText最后输出的是各个标签的概率；
FastText 由于面向的是超多分类以及大量数据的情况，所以FastText 最后的输出采用了层级Softmax，大大优化了模型的运行速度

2.2 n-gram

首先要声明，在原论文中，n-gram并不是FastText必要的步骤，仅仅是一个锦上添花的步骤而已，没有n-gram它还是FastText。

引入n-gram首先是为了解决word2vec中的词序问题，比如两个句子“你礼貌吗”和“礼貌你吗”这两个句子仅仅词序不同，但是意思却天差地别，这种情况word2vec是检测不到词序的不同的，由此提出了n-gram。

注意，词分类模型的n-gram的是word级别的，并不是字符级别的，比如，有如下的句子
$\hspace{0.5em}have\hspace{0.5em} an \hspace{0.5em}apple$ 如果n-gram中的 $n = 2$ 时，那么输入其中的句子经过n-gram后被分为以下部分 $\hspace{0.5em}have,have\hspace{0.5em} an,an \hspace{0.5em}apple$

最低0.47元/天解锁文章