三、N元语法（N-gram）

原创

已于 2024-03-07 14:55:55 修改 · 1.7k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理

于 2024-03-05 22:09:14 首次发布

本文介绍了N-gram语言模型用于计算句子概率的方法，强调了词向量表示在克服One-Hot编码缺点上的优势。文章通过实例展示了如何使用Bigram进行概率计算，并讨论了模型的精度与复杂性trade-off和数据稀疏问题。

为了弥补 One-Hot 独热编码的维度灾难和语义鸿沟以及 BOW 词袋模型丢失词序信息和稀疏性这些缺陷，将词表示成一个低维的实数向量，且相似的词的向量表示是相近的，可以用向量之间的距离来衡量相似度。

N-gram 统计语言模型是用来计算句子概率的概率模型，即某一个词的出现由其前面每一个词出现的概率决定。假设一个长度为N的句子，句子 S=(X1,...,XN)，那么这个句子的概率（也就是这 N 个词共同出现的概率）如下：

$P(S=(X1,..., XN))=P(X1)P(X2|X1)...P(XN)|X1...X(N-1))$

N的取值	名称	含义
1

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

瑞雪兆我心

关注关注

23
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

自然语言处理之语言模型：n-gram：n-gram模型基础

zhubeibei168的博客

06-07

931

语言模型是一个概率模型，用于预测一个词序列的概率。形式上，给定一个词序列w1w2wnw1w2...wn，语言模型的目标是计算其概率Pw1w2wnPw1w2...wn。在实际应用中，语言模型通常用于生成新的文本序列，或者评估现有文本序列的合理性。n-gram模型是一种基于统计的语言模型，用于预测序列中下一个词的概率。它基于一个假设：一个词的出现只依赖于它前面的n-1个词。这里的n就是n-gram中的“n”，表示序列中连续的n个词。

统计语言模型：N元语法模型（N-gram）

xunyishuai5020的博客

02-19

1317

马尔科夫假设认为在一句话中，某单词的出现概率只与它前面的前 nnn 个单词有关。 2.2.1 Bi-gram 基于一阶马尔科夫假设衍生出Bi-gram语言模型，该模型假设句中单词的出现概率只与其前面相邻的前1个单词有关，所以模型表达式可简化成如下： P(S)=P(W1,W2,…,Wn)=P(W1)P(W2∣W1)⋯P(Wn∣Wn−1)(4) P(S) = P(W_1, W_2, …, W_n) = P(W_1)P(W_2|W_1) \cdots P(W_n|W_{n-1}) \tag{4} P(S)=P.

参与评论您还未登录，请先登录后发表或查看评论

动手深度学习PyTorch（十一）机器翻译

HyperionSS的博客

02-18

2279

机器翻译机器翻译是指将一段文本从一种语言自动翻译到另一种语言。因为一段文本序列在不同语言中的长度不一定相同，所以我们使用机器翻译为例来介绍编码器—解码器和注意力机制的应用。 1. 读取和预处理数据我们先定义一些特殊符号。其中“<pad>”（padding）符号用来添加在较短序列后，直到每个序列等长，而“<bos>”和“<eos>”符号分别表示序列的开始和结束...

关于Transformer的若干问题与解答

weixin_53877865的博客

03-20

1026

Decoder与Encoder的关系：Decoder的每一层都接收Encoder的全部输出，通过Cross-Attention动态关注不同部分。Encoder多层级联的意义：通过逐层抽象和整合，捕捉输入序列从局部到全局的复杂特征，提升模型的表达能力和上下文理解能力。Decoder多层级联的意义：逐步细化生成过程，增强对Encoder输出的多层次利用，提升生成任务的精度和复杂性处理能力。在Encoder和Decoder中，Padding Mask（填充掩码）是一个重要的机制，它与输入序列的对齐密切相关。

彻底搞懂Code Llama文本编码：从BOS/EOS到特殊标记的实战指南

最新发布

gitblog_00494的博客

09-12

617

你是否在使用Code Llama时遇到过生成内容不完整、格式混乱或无法正确结束的问题？这些问题往往与文本编码时的特殊标记使用不当有关。本文将系统解析Code Llama的BOS（Beginning of Sequence，序列开始）、EOS（End of Sequence，序列结束）及各类特殊标记的工作原理与最佳实践，读完你将能够： - 正确设置文本生成的起止边界 - 掌握代码补全场景的特殊标记用...

[深度学习]动手学深度学习笔记-7

qq_42662568的博客

02-19

483

深度学习-自然语言处理-文本生成

weixin_47895059的博客

05-27

1348

从一个含有酒店信息的excel文件生成酒店评价文字。 seq2seq方法。运用的是lstm+attention import csv import tqdm import time import pandas as pd import torch from torch.utils.data import Dataset import torch import torch.nn as nn import torch.optim as optim import torch.nn.functional as

机器翻译（Machine Translation）

m0_71458120的博客

06-26

2703

机器翻译（Machine Translation，简称MT）是指运用机器，通过特定的计算机程序将一种书写形式或声音形式的自然语言，翻译成另一种书写形式或声音形式的自然语言的过程。机器翻译是一门交叉学科，由计算机语言学、人工智能和数理逻辑等子学科构成，这些子学科又分别建立在语言学、计算机科学和数学的基础之上。机器翻译可以实现不同国家不同语言间的低成本交流，其主要优点包括成本低、易把控和速度快。机器翻译技术的发展经历了从基于规则的翻译方法，到基于统计的翻译方法，再到当前基于神经网络的翻译方法的演变。

N-Gram-LM.rar_bi gram_bi gram算法_gram_n gram_n-gram

09-20

除了Bi-Gram，还有更复杂的N-Gram模型，如Tri-Gram（三元语法），它考虑了前三个元素的关系，以及更高级的N-Gram，可以是四元、五元等。N-Gram的阶数越高，模型通常能更好地捕捉语言的复杂性，但同时也需要更多的...

基于 N-gram语法的文本生成

bullnfresh的专栏

07-07

1160

N-gram是自然语言处理中的一种文本建模技术，用于对文本数据进行分析和生成。它是一种基于n个连续词语或字符的序列模型，其中n表示n-gram的大小。通常，n的取值为1、2、3等。Unigram（1-gram）：一个单词或一个字符为一个单位。例如，“I”, “love”, “Python”。Bigram（2-gram）：两个相邻的单词或字符为一个单位。例如，“I love”, “love Python”。Trigram（3-gram）：三个相邻的单词或字符为一个单位。

NLP中＜SOS＞、＜EOS＞、＜UNK＞、＜PAD＞等标识符的含义

云隐雾匿的博客

01-28

7266

、、、、、、、、。 自然语言处理中、、、等标识符的含义

生成模型特殊标记含义

i++;

06-08

4704

这些特殊标记有助于控制文本生成的结构和格式。它们在训练和推断时使用，以便模型能够识别生成文本中的不同部分，并且可以更好地理解任务的要求。在具体的应用中，这些标记的具体取值可以根据需要进行自定义，但通常采用的约定是使用特殊的标记字符串，如。在使用生成模型生成文本时，可以将。当生成模型生成句子时，可以将。在生成长篇文本时，可以将。插入到输入文本的开头，以指示模型开始生成新的句子。插入到段落的结尾，以指示模型生成新的段落。插入到句子的末尾，以指示模型停止生成。是在文本生成任务中常用的特殊标记。

N-gram 模型介绍

Recursions的博客

08-20

1518

例如，在句子“我喜欢吃苹果”中，2-gram（也称为二元语法）有“我喜欢”“喜欢吃”“吃苹果”；3-gram（三元语法）有“我喜欢吃”“喜欢吃苹果”。N 的取值通常根据具体任务和数据来确定，常见的有 unigram（N = 1，单个词）、bigram（N = 2）和 trigram（N = 3）等。总的来说，N-gram 模型在自然语言处理等领域中有着广泛的应用，但其也存在一些局限性。N-gram 模型是一种基于统计语言模型的算法，在自然语言处理领域中有着广泛的应用。统计 N-gram 频率。

[转载]分类问题中的“维数灾难”

图图酱的专栏

08-02

1377

原文地址：http://www.cnblogs.com/datahunter/p/3808252.html?utm_source=tuicool&utm_medium=referral　　在看机器学习的论文时，经常会看到有作者提到“curse of dimensionality”，中文译为“维数灾难”，这到底是一个什么样的“灾难”？本文将通过一个例子来介绍这令人讨厌的“curse of dimens

NLP系列(5)_从朴素贝叶斯到N-gram语言模型