
nlp
Cater Chen
寄希望于黎明
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
RNN中的hidden_state和output
https://zhuanlan.zhihu.com/p/28919765转载 2021-07-16 17:08:42 · 2724 阅读 · 0 评论 -
states
RNN中隐藏状态states的形态https://zhuanlan.zhihu.com/p/43041436转载 2021-05-27 21:31:47 · 98 阅读 · 0 评论 -
关于nlp中的mask问题
关于nlp中的mask问题NLP中Mask全解转载 2021-05-27 14:56:51 · 194 阅读 · 0 评论 -
关于dynamic_rnn中seq_length参数
关于dynamic_rnn中sequence_length参数的解释https://zhuanlan.zhihu.com/p/51860702https://blog.youkuaiyun.com/qq_34430032/article/details/82840834原创 2021-05-27 14:44:35 · 923 阅读 · 0 评论 -
关于注意力机制
注意力机制注意力的种类有如下四种:加法注意力, Bahdanau Attention点乘注意力, Luong Attention自注意力, Self-Attention多头点乘注意力, Multi-Head Dot Product Attention(请转至Transformer模型seq2seq注意力机制:这里关键的操作是计算encoder与decoder state之间的关联性的权重,得到Attention分布。1、可以先对encoder中隐藏层状态自身加权。2、求每次输入dec原创 2021-05-26 12:01:23 · 507 阅读 · 0 评论 -
关于seq2seq api的重要知识点阅读
关于seq2seq api的重要知识点阅读feed_previous: 是否将上一时刻输出作为下一时刻输入,一般测试的时候置为True,此时decoder_inputs除了第一个元素之外其他元素都不会使用。embedingfrom tensorflow.contrib.rnn.python.ops import core_rnn_cell encoder_cell = core_rnn_cell.EmbeddingWrapper( encoder_cell,原创 2021-05-25 18:07:07 · 150 阅读 · 0 评论 -
关于RNN的学习
https://zhuanlan.zhihu.com/p/28196873原创 2021-05-25 15:50:31 · 88 阅读 · 0 评论 -
Seq2Seq的几种解码模式
Seq2Seq的几种解码模式attention原创 2021-05-13 17:36:46 · 472 阅读 · 0 评论 -
nlp 句间关系学习
nlp 句间关系学习句间关系的输入是一对文本,输出是文本间的关系。常用的判别有语义相似度、语义关系推理(蕴含/中立/矛盾)、问答对等,拿GLUE榜单来说,其中有6个(QQP/MNLI/QNLI/STS/RTE/MRPC)都是句间关系任务。这个任务的应用场景也很广泛,比如搜索推荐的语义相关性、智能问答中的问题-问题、问题-答案匹配、知识图谱中的实体链接、关系识别等。在深度学习中,文本匹配模型可以分为两种结构:双塔式和交互式。双塔式模型也称孪生网络、Representation-based,就是用一个编原创 2021-03-31 13:55:54 · 1307 阅读 · 1 评论 -
多任务学习– ERNIE 2.0
多任务学习– ERNIE 2.0https://www.jiqizhixin.com/articles/2019-10-29-4转载 2021-02-25 10:38:00 · 270 阅读 · 0 评论 -
基于深度学习的多任务学习在NLP中的应用
基于深度学习的多任务学习在NLP中的应用https://zhuanlan.zhihu.com/p/110370642转载 2021-02-25 10:09:20 · 227 阅读 · 0 评论 -
NLP-英文情感分析-单句提取特征方式
NLP-英文情感分析-单句提取特征方式bert vocab编码 保留[CLS]cnn提取特征得cbigru提取特征得gc和g融合原创 2021-02-20 13:59:07 · 570 阅读 · 0 评论 -
bert中使用的优化器AdamW
bert中使用的优化器AdamWhttps://www.haomeiwen.com/subject/qrnrmhtx.html转载 2021-02-19 16:50:34 · 2398 阅读 · 0 评论 -
利用BERT预训练模型进行分类任务代码
利用BERT预训练模型进行分类任务代码What is BERT?BERT是一种预先训练语言表示的方法,这意味着我们在一个大型文本语料库(如Wikipedia)上训练一个通用的“语言理解”模型,然后将该模型用于我们关心的下游NLP任务(如回答问题)。BERT优于以前的方法,因为它是第一个无监督的,深度双向的预训练自然语言处理系统。预先训练过的表示既可以是上下文无关的,也可以是上下文相关的,而上下文相关的表示进一步可以是单向的或双向的。bert就是与上下文相关的。1、BERT使用了一种简单的方法:我原创 2021-02-19 16:49:41 · 1304 阅读 · 0 评论 -
GELU 激活函数
GELU 激活函数https://blog.youkuaiyun.com/liruihongbob/article/details/86510622转载 2021-02-19 11:22:05 · 843 阅读 · 0 评论 -
Transformer self-attention源码
Transformer self-attention源码一共分为三个函数:构造attention_masktransformer_modelattention_layer构造attention_mask:该部分代码的作用是构造attention可视域的attention_mask,因为每个样本都经过padding过程,在做self-attention的时候padding的部分不能attend到其他部分上。输入为形状为【batch_size, from_seq_length,…原创 2021-02-19 10:49:48 · 651 阅读 · 0 评论 -
利用BERT预训练模型的击中返回值
利用BERT预训练模型的击中返回值get_pooled_output通过transformer得到的通过全连接简单地获取相应的隐藏状态来“池”模型,返回的到第一个位置,代表该句句子向量【CLS】。- get_sequence_output返回transformer最后的结果get_all_encoder_layers返回transformer所有层的结果get_embedding_output返回词向量表示(还没进入transformer)...原创 2021-02-19 10:46:48 · 564 阅读 · 1 评论 -
解决测试集上tokenizer.texts_to_sequences()编码问题
解决测试集上tokenizer.texts_to_sequences()编码问题预料十分脏乱会导致分词后测试集里面很多词汇在训练集建立的vocab里面没有,如果利用tokenizer.texts_to_sequences编码,会自动忽略这些没有的词,会损失很多信息。对这问题进行改进。例如:# 训练集vocab:{1: '了', 2: ',', 3: '~', 4: '么', 5: '气死', 6: '姐姐', 7: '快二是', 8: '阵亡', 9: '吗', 10: '尼玛', 11: '一原创 2020-12-11 14:38:53 · 2390 阅读 · 1 评论 -
CNN与RNN的区别以及Recursive NN
CNN与RNN的区别CNN的输入是几个矩阵(30*100)RNN的输入是多个序列(100,100……,100)RNN又分为递归神经网络和循环神经网络:递归神经网络的初衷是为了学习到句子的句法结构信息。但会伴随着梯度消失,不能并行等一系列问题。循环神经网络用于时间序列就目前来看,使用树结构网络处理自然语言仍然是个开放的领域。...原创 2020-11-05 11:17:10 · 452 阅读 · 0 评论 -
Python gensim库使用word2vec 加载和保存模型、在预训练基础上训练自己的预料
Python gensim库使用word2vec加载和保存模型gensim生成的模型有三种:第一种是 默认的model文件(可以继续 进行tuning)第二种是bin文件(c风格)第三种是 txt文件(比较大)from gensim.models import Word2Vec# 第一种model = Word2Vec.load(word2vec.model) model.save('word2vec.model')# 第二种model = gensim.models原创 2020-10-12 14:40:19 · 5057 阅读 · 3 评论 -
NLP ——Doc2vec
NLP ——Doc2vec即使利用word2vec对词向量进行平均处理,我们仍然忽略了单词之间的排列顺序对情感分析的影响。即上述的word2vec只是基于词的维度进行”语义分析”的,而并不具有上下文的”语义分析”能力。在一个句子或者文档的训练过程中,段落 ID 保持不变,共享着同一个段落向量。在word2vec的基础上添加一个段落向量。训练单词向量W时,也训练段落向量D,并且在训练结束时,它包含了段落的向量化表示。虽然单词向量表示单词的概念,但段落向量旨在表示段落的概念。PV-DM训练原创 2020-09-30 17:25:32 · 492 阅读 · 0 评论 -
NLP ——GloVe
NLP ——GloVeglove是一个全局对数双线性回归模型(global log bilinear regression model)。顾名思义,该模型用到了语料库的全局特征,即单词的共现频次矩阵,并且,其优化目标函数是对数线性的,并用回归的形式进行求解。本质上是对共现矩阵进行降维。首先基于语料库构建词的共现矩阵,然后基于共现矩阵和GloVe模型学习词向量。对于中心词:中心词变换:现在我们已经知道ice和steam这两个词在语料中出现的频率,这两个词被视为目标词(target wo原创 2020-09-30 16:24:41 · 696 阅读 · 0 评论 -
NLP ——句向量表示
NLP ——句向量表示基于Word2vec (1) (2)基于GloVeGloVe词向量模型融合了全局矩阵分解方法(Matrix Factorization)和局部文本框捕捉方法(word2vec),是一种用于获得单词矢量表示的无监督学习算法。Gensim加载GloVe训练的词向量Doc2Vec(Gensim)Doc2vec是在Word2vec的基础上做出的改进,它不仅考虑了词和词之间的语义,也考虑了词序。Doc2Vec有两种模型,分别为:句向量的分布记忆模型(PV-DM: Distr原创 2020-09-30 11:13:38 · 1304 阅读 · 0 评论 -
NLP ——Negative Sampling
NLP ——Negative Sampling如果我们的训练样本里的中心词????是一个很生僻的词,那么就得在霍夫曼树中辛苦的向下走很久了。能不能不用搞这么复杂的一颗霍夫曼树,将模型变的更加简单呢?Negative sampling 解决了这个问题,每次我们就修改了其中一小部分weight,而不是全部。将随机选择一小部分的 negative words,比如选 10个 negative words 来更新对应的权重参数。下面我们就来看看Negative Sampling的求解思路。比如我们有一个训原创 2020-09-30 10:22:48 · 544 阅读 · 0 评论 -
NLP ——Hierarchical Softmax
NLP ——Hierarchical Softmaxword2vec为什么 不用现成的DNN模型,要继续优化出新方法呢?问题:从隐藏层到输出的softmax层的计算量很大,因为要计算所有词的softmax概率,再去找概率最大的值。word2vec对这个模型做了改进:首先,对于从输入层到隐藏层的映射,没有采取神经网络的线性变换加激活函数的方法,而是采用简单的对所有输入词向量求和并取平均的方法。为了避免要计算所有词的softmax概率,word2vec采样了霍夫曼树来代替从隐藏层到输出so原创 2020-09-29 18:50:11 · 239 阅读 · 0 评论 -
NLP ——Skip-gram 和 CBOW
NLP ——Skip-gram 和 CBOWone-hot隐藏层没有激活函数词向量的维度一般情况下要远远小于词语总数的大小(降维操作)用技巧来加速训练:Hierarchical softmax本质是把 N 分类问题变成 log(N)次二分类negative sampling本质是预测总体类别的一个子集其实在真正应用的时候,只需要调用 Gensim (一个 Python 第三方库)的接口就可以。但对理论的探究仍然有必要,你能更好地知道参数的意义、模型结果受哪些因素影响原创 2020-09-29 16:39:24 · 252 阅读 · 0 评论 -
NLP基础学习清单
NLP基础文本相似度计算TF-IDF模型LSI模型LDA模型原创 2020-09-29 15:14:04 · 170 阅读 · 0 评论