论文笔记:Word2Vec的发展与应用

本文探讨了Word2Vec的发展历程,从NNLM、RNNLM到Skip-Gram和CBOW模型,解析了它们在解决自然语言处理中的维度灾难问题上的贡献。此外,还介绍了Word2Vec在机器翻译、句子和文档表示学习的应用,展示了词向量如何捕获语法和语义信息,并提供了PV-DM模型的核心代码示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概述

看了一些Word2Vec的一些相关文章,筛选一下主要分为两类(感兴趣可以看原文)。一是有关于Word2Vec的发展,主要是以下4篇文章起到奠基性的作用

  1. A Neural Probabilistic Language Model.2003 (NNLM)

  2. Recurrent neural network based language model.2010 (RNNLM)

  3. Distributed Representations of Words and Phrases and their Compositionality.2013 (Skip Gram Model and CBOW)

  4. Efficient Estimation of Word Representations in Vector Space.2013 (Skip Gram Model and CBOW)

二是关于Word2Vec应用的一些文章,一些有趣的idea像是如下的文章

  1. Linguistic Regularities in Continuous Space Word Representations.2013

  2. Exploiting Similarities among Languages for Machine Translation.2013

  3. Distributed Representations of Sentences and Documents.2014

Development

NNLM: A Neural Probabilistic Language Model.2003

这篇文章主要解决在此之前的自然语言模型是统计语言模型和基于统计语言模型n-gram模型的维度灾难问题。

statistical language model

统计语言模型的基本想法就是对于一句话,在给定前几个词的情况下,统计出现下一个词的概率。这样一句话的出现概率就是第一个词出现的概率 P(W1) 乘上在第一个词给定的情况下出现第二个词的概率 P(W2|W1) , 依此类推,一句话的概率就是上图第一行的联合条件概率乘积。

N-gram模型就是假设一个词出现的概率只考察前后该词前后n个词,以此来降低复杂度。

这些模型的问题就是复杂度非常高,例如:

curse of dimension

上图的free parameters就是指前面语言模型的各个概率P. 统计语言模型就是要统计所有文本将所有概率P确定下来。

文章的作者要解决这一问题,采用distributed vectors来表示每一个词,一句话的上下文语境用训练好的vector的值和网络参数来表达。如下:

feature vector

作者给出的网络结构如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值