4、随机向量与n-gram语言模型详解

随机向量与n-gram语言模型详解

在自然语言处理和概率统计领域,随机向量和n-gram语言模型是非常重要的概念。下面我们将详细介绍随机向量以及不同类型的n-gram语言模型。

1. 随机向量

除了标量随机变量,随机向量也是我们会经常遇到的。随机向量的每个元素都取连续值,可以看作是连续随机变量在多维空间的扩展,遵循多元分布。随机向量有助于我们对一组相关变量进行建模,比如多个单词组成的短语。在本文中,随机向量的元素是独立同分布(i.i.d.)的,这使得计算在概念上相对简单。我们用均匀分布和高斯分布来举例说明。

  • 多元均匀分布 :给定n个连续标量随机变量,多元均匀分布描述了一个n维随机向量。每个元素的值范围可以用两个向量表示,分别是下界向量和上界向量。多元均匀分布的概率密度函数(p.d.f.)可以写成特定的形式,分母表示有界空间的体积,可看作每个元素的p.d.f.的乘积。通过积分可以计算随机向量落在某个范围内的概率。我们用特定符号表示多元均匀分布。
  • 多元高斯分布 :这是最广泛使用的多维概率分布。与单变量情况相比,单个随机向量和单个均值被向量随机变量和均值向量所取代,单个方差被协方差矩阵取代。在本文中,我们只关注具有对角协方差矩阵的多元高斯分布,这样可以将其理解为多个独立的标量高斯变量组成的向量。
2. n-gram语言模型

语言模型(LM)用于衡量自然语言句子的概率,给更可能出现的句子赋予更高的分数。这些更可能的句子通常更常见、更流畅且语法正确。判断一个句子是否可能出现的简单方法是看其中的单词。例如,“thanks”

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值