【论文研读】NNLM—A Neural Probabilistic Language Model

最新推荐文章于 2025-04-04 14:34:41 发布

VirusBenn

最新推荐文章于 2025-04-04 14:34:41 发布

阅读量296

点赞数

分类专栏：论文研读文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_41969523/article/details/120654996

版权

1.问题：

统计语言建模的一个目标是学习语言中单词序列的联合概率函数。这在本质上是困难的，因为维数的诅咒:测试模型的word序列很可能与训练中看到的所有单词序列不同。

我们建议通过学习一个分布式的词表示来克服维数的诅咒，它允许每个训练句子向模型告知一个指数数量的语义相邻句子

N-gram它不考虑1到2个单词以外的上下文，1秒内它不考虑单词之间的“相似性”。

2.介绍

使用这些思想的实现依赖于共享参数的多层神经网络。本文的另一个贡献是关于如何将如此庞大的神经网络(包含数百万个参数)训练成非常庞大的数据集(包含数百万或数千万个示例)。

用分布式表示对抗维数的诅咒：

1. 为在词表中的每一个词分配一个分布式的词特征向量

2. 词序列中出现的词的特征向量表示的词序列的联合概率函数

3.学习词特征向量和概率函数的参数

特征向量表示单词的不同方面:每个单词都与向量空间中的一个点相关联。特征的数量(如实验中m=30、60或100)远远小于词汇量的大小(如17000)。概率函数表示为在给定前一个词的情况下下一个词的条件概率的乘积(例如，在实验中使用多层神经网络来预测给定前一个词的下一个词)。该函数具有可迭代调整的参数，以最大化训练数据的对数似然或正则化准则，例如，通过添加权重衰减惩罚。2学习与每个单词相关联的特征向量，但可以使用语义特征的先验知识对其进行初始化。

使用神经网络来模拟高维离散分布的想法已经被发现对学习z1···Zn的联合概率是有用的

3.模型：

训练集是一个词序列

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。