FastText.zip compressing text classification models

最新推荐文章于 2024-01-16 10:17:07 发布

丫头片子不懂事

最新推荐文章于 2024-01-16 10:17:07 发布

阅读量1.8k

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习论文文章标签：文本分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_26609915/article/details/54584505

深度学习同时被 2 个专栏收录

9 篇文章

订阅专栏

2 篇文章

订阅专栏

本文介绍了一种用于文本分类的FastText模型压缩方法，在保持模型准确度和运行速度的同时显著减小了模型大小。通过特征剪枝、量化、哈希及重新训练等步骤，实现了模型尺寸小于100KB的目标。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

FastText.zip: compressing text classification models

作者

Armand Joulin,Edouard Grave, Piotr Bojanowski, Matthijs Douze, Hervé Jégou & Tomas Mikolov

单位

Facebook AI Research

关键词

text classification,compression,FastText

文章来源

Under review as a conference paper at ICLR 2017

问题

在不牺牲文本分类模型的准确度和速度的基础上如何生成压缩框架？

模型

通常一个文本分类的模型的损失函数为：

\sum n = 1 N ℓ (y n, B A x n)

$\sum_{n=1}^N \ell(y_n,BAx_n)$

其中 $x_n$ 是one-hot表示的文本向量， $y_n$ 是第n篇文章的标签；在大词汇量和大的输出空间情况下，矩阵A，B是很大的，非常浪费内存空间。

这篇论文主要讨论了如何平衡分类器准确率和模型尺寸的问题。通过feature Pruning、quantization、hashing和re-training处理，使生产的文本分类模型尺寸小于100KB。将模型在一些通用的数据集上训练，结果发现压缩过的模型准确率和速度上没有明显损失。
模型框架如下：

这里写图片描述

Product quantization

由于采用one-hot方法表示文本，当词汇表很大的情况下，模型将占用较大内存。
向量量化的目标是为了减少空间结构的复杂度。首先建立codebook,，然后将特征向量量化到codeword上。经过量化，任何空间中的点都可以用有限的几个codeword来表示。Product quantization允许将一个向量的各个部分进行分开量化。主要思想是在子空间中进行k-means，这样划分的空间比较密集，利用k-means中心点能够对数据进行较好的近似，能够有效压缩数据。

re-training

输入数据量化完成之后，还需要re-training来调整网络。论文采用自低而上的策略，首先量化输入矩阵，然后重训练和量化输出矩阵。当训练输出矩阵的时候，输入矩阵保存不变。

相关工作

该论文是对fasttext模型的扩展，如何利用一些方法降低模型内存占有量，使得模型又快又不占内存。

简评

论文主要就之前提出的fasttext模型提出压缩方法，使模型可以适应较大的数据集。对于工程应用而言，有参考价值；对于学术创新而言，指导意义不大。

丫头片子不懂事

博客等级

码龄10年

11
原创

19
点赞

18
收藏

13
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: tensorflow linspace

下一篇：: word embedding的模型与测试

最新评论

tensorflow linspace
丫头片子不懂事回复木瓜敲代码: 谢谢，已改
tensorflow linspace
木瓜敲代码: 是平均间隔的数不是随机的
word embedding的模型与测试
u011224295: 赞，分析得很到位，有问题想切磋下，是否可以加qq：569344928
word embedding的模型与测试
_____miss: 博主，您好，文中有一句“目前word2vec是支持online的，但是，再训练的语料要和之前的语料分布相同。”不知道预料分布相同这句话应该怎么理解呢？如果我想在一个预训练好的模型上用另一个领域的语料再训练模型，这个可以吗？刚入门这一部分，很多不是太懂，希望博主可以帮忙解答，万分感谢。
递归神经网络（recursive NN）结合自编码（Autoencode）实现句子建模
dingsiyu110 回复 u014698461: 请问你在哪儿找到该作者的github地址的啊

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。