轻松入门自然语言处理系列 专题7 基于FastText的文本分类

本文深入解析FastText模型,包括论文解读、源码分析及文本分类的应用。介绍了层次Softmax、词和字符N-gram等技巧,并提供使用FastText进行文本分类的步骤,涵盖词袋、Word2Vec、LDA模型的使用。

一、论文解读

论文《Bag of Tricks for Efficient Text Classification》是2017年发布于ACL的文章,目前引用数3806,主要是基于FastText的文本分类,提出了文本分类的很多实用技巧。

模型结构比较简单,如下:

在这里插入图片描述

可以看到,这是具有 N 个 ngram 特征x1、…、xN的句子的fasttext模型架构。词的特征可以被平均到一起,形成良好的句子表征,即特征被嵌入并平均以形成隐藏变量。模型架构类似于Word2vec的CBOW模型,中间的词被一个标签代替。

负对数似然概率公式如下:

− 1 N ∑ n = 1 N y n log ⁡ ( f ( B A x n ) ) -\frac{1}{N} \sum_{n=1}^{N} y_{n} \log \left(f\left(B A x_{n}\right)\right)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

东哥说AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值