[未完] 深度学习 之 词向量(Word Embedding)篇 :word2vec

欢迎参观 一> 个人小站

一. 词向量表示形式

在使用神经网络模型进行文本分类或者机器翻译时,前提工作是要对整理好的文本数据进行词向量化 (Word Embedding) ,既使用向量形式代表词。

1.1 One-hot representation

表示形式:向量维度的大小为数据中词汇表的大小,每个单词对应的位置置为1。例如 { I love china }love 的词向量为 [ 0, 1, 0 ] 。该表达形式最为简单,缺点是当词汇表特别大时,所占存储空间也特别大。

1.2 Dristributed representation

表示形式:以稠密的低维向量表示每个词。


二. 语言模型 ( Language Model )

如何判断一个句子是否流畅?例如 我在学习 而不是 我玩学习 ,语言模型可以解决这个问题。

2.1 统计语言模型

2.1.1 背景

给定一段文本序列,符号表达形式为:

s=w1 w2 w3 ... wm s = w 1   w 2   w 3   . . .   w m

wi w i 通常是已经分好词的“词语”,称为统计基元。那么这段文本的概率为:

P(S)=p(w1) p(w1|w2) p(w3|w1w2)...p(wm|w1...wm1)=i=1m p(wi|w1w2...wi1) P ( S ) = p ( w 1 )   p ( w 1 | w 2 )   p ( w 3 | w 1 w 2 ) . . . p ( w m | w 1 . . . w m − 1 ) = ∏ i = 1 m   p ( w i | w 1 w 2 . . . w i − 1 )

为方便计算,每个词只考虑与它前 n 个词有关,这便是语言模型中经典的 n 元文法 (N-gram) 模型,一般 n3 n ⩽ 3 。求文本的概率公式变为:

P(S)=i
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值