
NLP
文章平均质量分 88
页页读
这个作者很懒,什么都没留下…
展开
-
【Transformer位置编码】Transfomrer中的PE(Position Encoding, 位置编码)为什么起作用?
这里的pos代表序列中某个单词的位置,或者图像中某个patch的位置,i 代表维度的index,假设Transfomer模型隐藏层的维度为1024,则 i 的范围为 0 ~ 1024,因为相对位置较近时,对于波长小的sin函数敏感,x 变化一点点,sin(x)就变化很多,而对于波长较大的sin函数来说,位置较近的短距离变化根本看不出来。在实际应用中pos被归一化到-1~1到范围内,所以这里我们仅仅参考上图中的0~1的曲线变化即可。位置编码应该是该模型的核心,如果位置编码应用不对,则不收敛是正常的。原创 2025-02-10 15:33:48 · 598 阅读 · 0 评论 -
【名词解释】ImageCaption任务中的CIDEr、n-gram、TF-IDF、BLEU、METEOR、ROUGE 分别是什么?它们是怎样计算的?
n-gram是自然语言处理(NLP)中一种基本的概念,它指的是文本中连续的n个项(可以是音节、字或词)组成的序列。n-gram模型通过考察这些连续项的出现概率来捕捉文本中的语言规律,从而用于各种语言模型和文本处理任务,如拼写检查、语音识别、机器翻译以及搜索引擎中的查询预测等。TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于信息检索和文本挖掘的常用加权技术。它反映了一个词在文档集合中的重要性。原创 2024-04-02 15:04:09 · 2212 阅读 · 0 评论 -
【NLP基础知识】VSM | D-VSM | Word2Vec 介绍
VSM(向量空间模型)是一种在信息检索、文本挖掘和自然语言处理中广泛使用的概念,特别是在处理和比较文本文档方面。它将文本文档表示为向量,每个向量的维度对应于词汇表中的一个单词,而每个维度的值代表该单词在文档中的重要性,这通常通过词频(TF)或逆文档频率(IDF)等方法来量化。在向量空间模型中,每个文档都被表示为一个向量,向量中的每个元素对应于词汇表中的一个词。例如,假设我们有一个包含三个词的简单词汇表:{Python, 编程, 项目}。原创 2024-03-12 10:23:50 · 1126 阅读 · 0 评论 -
【笔记】Transformer模型(NLP)
Transformer 模型谷歌团队近期提出的用于生成词向量的BERT[3]算法在NLP的11项任务中取得了效果的大幅提升,堪称2018年深度学习领域最振奋人心的消息。而BERT算法的最重要的部分便是本文中提出的Transformer的概念。正如论文的题目所说的,Transformer中抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。更准确地讲,Transformer由且仅由self-Attenion和Feed Forward Neural Network组成。一个基于T原创 2020-05-08 22:59:56 · 712 阅读 · 0 评论