学习资料以及本文内容引用来源:
博客:
fastText原理及实践
wordembedding系列(三)FastText
论文:
Enriching Word Vectors with Subword Information
Bag of Tricks for Efficient Text Classification
Embedding理解:
背景:Embedding的流行,归功于google提出的word2vec。
本质:使距离相近的向量对应的物体有相近的含义,比如 Embedding(复仇者联盟)和Embedding(钢铁侠)之间的距离就会很接近,但 Embedding(复仇者联盟)和Embedding(乱世佳人)的距离就会远一些。Embedding能够用低维向量对物体进行编码,还能保留其含义。
<数学含义: Embedding在数学上表示一个maping, f: X -> Y, 也就是一个function。word embedding,就是找到一个映射或者函数,将单词word生成在一个新的空间上的表达,该表达就是word representation。来自知乎 寒蝉鸣泣 的回答

本文深入讲解FastText原理及其在文本分类中的应用技巧。探讨了FastText如何利用子词信息提升词向量的质量,并介绍了其独特的霍夫曼树结构,显著提高了处理速度。此外,还对比了FastText与其他模型如word2vec的不同之处。
最低0.47元/天 解锁文章

214

被折叠的 条评论
为什么被折叠?



