
NLP自然语言处理
文章平均质量分 92
努力学习的哇塞妹妹
有一个大佬梦的渣渣!
展开
-
【prompt learning提示学习】
提示学习是指对输入文本信息按照特定模板进行转换,把任务重构成一个更能充分利用预训练语言模型处理的形式。原创 2023-09-19 17:35:58 · 900 阅读 · 0 评论 -
【NLP学习笔记08 Elmo模型+莫烦pytorch代码理解】
Elmo(Embeddings from Language Models)是一种基于深度双向语言模型(Deep Bidirectional Language Model)的上下文相关的词向量表示方法;传统方法将每个词表示为一个固定的向量,而Elmo考虑了每个词在不同上下文环境中的多个表示。前向语言模型(Forward Language Model):这个模型从左到右阅读输入序列,并试图预测下一个词。每个词的前向隐藏状态表示了该词在上下文中的信息。原创 2023-07-20 11:35:23 · 877 阅读 · 0 评论 -
【NLP自然语言处理学习笔记07 Bert理论+莫烦pytorch代码理解】
BERT的主要特点是双向编码(bidirectional encoding。BERT则采用了Masked Language Model(MLM)和Next Sentence Prediction(NSP)两种预训练任务,使得模型能够同时利用左侧和右侧的上下文信息进行预测;原创 2023-07-18 17:38:50 · 488 阅读 · 1 评论 -
【NLP自然语言处理学习笔记06 attention is all you need理论+pytorch版代码理解】
Transformers是一种用于自然语言处理(NLP)任务的神经网络架构。它由多个编码器-解码器层组成,其中每个层都包含一个自注意力机制。自注意力机制使得模型能够在输入序列的各个位置上进行关注和权重分配,以便更好地捕捉序列中的相关性。自注意力机制通过将输入序列中的每个元素与所有其他元素进行比较和加权,为每个元素分配一个注意力权重。这个过程可以帮助模型更好地理解序列中元素之间的依赖关系。原创 2023-07-09 22:38:37 · 540 阅读 · 1 评论 -
【NLP自然语言处理学习笔记04神经网络模型--- CNN、RNN、LSTM、GRU (含莫烦代码解析)】
和LSTM一样,也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。损失函数是各输出的损失加和;其中超参数是filter size=f和stride=s是自己设置的,这层没有要学习的参数。与LSTM相比,GRU内部少了一个”门“,参数比LSTM少,却能达到与LSTM相当的功能,我们常常觉得GRU更加”实用“!(3)filter的长度一般取3,一般会取基数,使得除法可以整除。记忆门🚪:要保留/忘记多少信息(类似于LSTM中的遗忘门🚪)(1)p为填充长度(为了保证对称一般用2p表示填充大小);原创 2023-07-04 22:40:07 · 1124 阅读 · 0 评论 -
【NLP自然语言处理学习笔记02:词向量(含莫烦代码分析)】
词向量技术是一种分布式表示【分散的把词信息分布到各个向量中】density稠密性semantic 语义capacity 表达能力global generalization 泛化能力。原创 2023-06-30 10:57:00 · 224 阅读 · 0 评论 -
【NLP自然语言处理学习笔记01:文本的表示】
我们需要定义它的维度,通过训练深度学习的模型(skip- gram、Glove、CBow…IDF(Inverse Document Frequency,逆向文件频率):log(N/N(w))TF(Term Frequency,词频):表示一个给定词语w在一篇给定文档d中出现的频率。(要记录出现的频率) 未出现的词对应位置设为0,出现设为出现的频数。(3)解决了one-hot方法中稀疏性(sparsity)的问题。并不是出现的越多就越重要;未出现的词对应位置设为0,出现设为1。出现设置为1,未出现设为0。原创 2023-06-27 11:28:54 · 101 阅读 · 0 评论