[未完] 深度学习之词向量(Word Embedding)篇：word2vec

最新推荐文章于 2024-09-18 11:32:45 发布

iTensor

最新推荐文章于 2024-09-18 11:32:45 发布

阅读量1.6k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：自然语言处理深度学习深度学习文章标签： NLP 自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wshixinshouaaa/article/details/81369532

欢迎参观一> 个人小站

一. 词向量表示形式

在使用神经网络模型进行文本分类或者机器翻译时，前提工作是要对整理好的文本数据进行词向量化 (Word Embedding) ，既使用向量形式代表词。

1.1 One-hot representation

表示形式：向量维度的大小为数据中词汇表的大小，每个单词对应的位置置为1。例如 { I love china } ，love 的词向量为 [ 0, 1, 0 ] 。该表达形式最为简单，缺点是当词汇表特别大时，所占存储空间也特别大。

1.2 Dristributed representation

表示形式：以稠密的低维向量表示每个词。

二. 语言模型 ( Language Model )

如何判断一个句子是否流畅？例如 我在学习 而不是 我玩学习 ，语言模型可以解决这个问题。

2.1 统计语言模型

2.1.1 背景

给定一段文本序列，符号表达形式为：

s = w 1 w 2 w 3 . . . w m

$s = w_{1}\ w_{2}\ w_{3}\ ...\ w_{m}$

$w_{i}$ 通常是已经分好词的“词语”，称为统计基元。那么这段文本的概率为：

P (S) = p (w 1) p (w 1 | w 2) p (w 3 | w 1 w 2) . . . p (w m | w 1 . . . w m - 1) = \prod i = 1 m p (w i | w 1 w 2 . . . w i - 1)

$P(S) = p(w_{1})\ p(w_{1}| w_{2})\ p(w_{3}| w_{1}w_{2})... p(w_{m}| w_{1}...w_{m-1}) = \prod_{i=1}^{m}\ p(w_{i}| w_{1}w_{2}...w_{i-1})$

为方便计算，每个词只考虑与它前 n 个词有关，这便是语言模型中经典的 n 元文法 (N-gram) 模型，一般 $n \leqslant 3$ 。求文本的概率公式变为：

P (S) = \prod i

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。