fastText学习以及对embedding的理解

本文深入讲解FastText原理及其在文本分类中的应用技巧。探讨了FastText如何利用子词信息提升词向量的质量,并介绍了其独特的霍夫曼树结构,显著提高了处理速度。此外,还对比了FastText与其他模型如word2vec的不同之处。

学习资料以及本文内容引用来源:
博客:
fastText原理及实践
wordembedding系列(三)FastText

论文:
Enriching Word Vectors with Subword Information
Bag of Tricks for Efficient Text Classification


Embedding理解:

背景:Embedding的流行,归功于google提出的word2vec。

本质:使距离相近的向量对应的物体有相近的含义,比如 Embedding(复仇者联盟)和Embedding(钢铁侠)之间的距离就会很接近,但 Embedding(复仇者联盟)和Embedding(乱世佳人)的距离就会远一些。Embedding能够用低维向量对物体进行编码,还能保留其含义。

数学含义: Embedding在数学上表示一个maping, f: X -> Y, 也就是一个function。word embedding,就是找到一个映射或者函数,将单词word生成在一个新的空间上的表达,该表达就是word representation。来自知乎 寒蝉鸣泣 的回答

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值