
自然语言处理
文章平均质量分 90
自然语言生处理相关文章和代码
咕噜咕噜day
day day up!
展开
-
知识蒸馏是什么?一份入门随笔__摘要
目录一、模型压缩背景二、 为什么叫蒸馏?三、与直接优化logits相比四、实验与结论一、模型压缩背景在实际应用中一般希望部署到应用中的模型使用较少的计算资源(存储空间,计算单元),产生较低的时延。然而深度学习的背景下,效果极好的方法一般会有两种方案:1. 使用过参数化的深度神经网络,再加一定正则化策略(dropout) 2. 集成模型(ensemble)将许多弱的模型集成起来; 然而部署时 我们希望的小模型,能达到和大模型一样或相当的结果;* 下文统一将要训练的小模型...原创 2021-05-04 00:31:11 · 425 阅读 · 0 评论 -
残差网络解决了什么,为什么有效?—摘要
1.动机:深度神经网络的“两朵乌云”一般认为,经过训练深层神经网络可以将数据特征逐层抽象,最终提取出完成任务所需要的特征/表示,最后使用一个简单的分类器(或者别的学习器),就可以完成任务;因此深度学习也被叫表示/特征学习;直观的理解,在非线性激活函数的加持下,更深层的神经网络拥有更大的假设空间,当然更有可能包含一个最优解;但是训练却是一个更大的难题;除了过拟合问题外,更深的神经网络更容易出现梯度弥散/爆炸问题和网络退化问题;梯度弥散:神经网络在反向传播时,如果i激活函数输...原创 2021-05-04 00:23:40 · 4424 阅读 · 2 评论 -
XLNet学习:究极总结
目录XLNet:XLNet方法介绍:编码器-解码器的一体化Objective: Permutation Language ModelingIncorporating Ideas from Transformer-XDiscussion and AnalysisComparison with BERTComparison with Language ModelExperimentsPretraining and ImplementationAblation...原创 2021-05-11 01:39:12 · 1042 阅读 · 1 评论 -
LSTM的巅峰理解笔记
Recurrent Neural Networks目录Recurrent Neural Networks一.The Problem of Long-Term Dependencies二. LSTM Networks三. The Core Idea Behind LSTMs四. Step-by-Step LSTM Walk Through五. Variants on Long Short Term Memory六. ConclusionRNN展开:RNN的实现很多任原创 2021-04-14 00:09:29 · 503 阅读 · 0 评论 -
端到端的开域聊天机器人_Facebook_Blender
参考;Blender论文代码Poly-encoder 论文Unlikehood Loss 论文人工评估标准:ACUTE-EVAL端到端的开域聊天机器人_Facebook_BlenderTowards a human-like open-domain chatbotGoogle’s New Meena chatbot, Supersedes Existing AI-AssistantsMeet Google New Chat.原创 2020-12-08 22:45:09 · 938 阅读 · 0 评论 -
端到端的开放域聊天机器人_Google_Meena
原创 2020-12-08 22:43:33 · 398 阅读 · 0 评论 -
PLUG AND PLAY LANGUAGE MODELS: A SIMPLE APPROACH TO CONTROL LEDTEXT(PPLM):代码深入理解(二)—PPLM_Discrim
代码链接:PPLM_code二. Example command for discriminator based sentiment controlpython run_pplm.py -D sentiment --class_label 2 --cond_text “My dog died” --length 50 --gamma 1.0 --num_iterations 10 --num_samples 10 --stepsize 0.04 --kl_scale 0.01 --gm_scale 0原创 2020-07-22 00:13:20 · 781 阅读 · 1 评论 -
PLUG AND PLAY LANGUAGE MODELS: A SIMPLE APPROACHTOCONTROLLEDTEXT(PPLM):代码深入理解(一)—Bag-Of-Words
代码链接:PPLM_code一. Example command for bag-of-words control:python run_pplm.py -B military --cond_text “The potato” --length 50 --gamma 1.5 --num_iterations 3 --num_samples 10 --stepsize 0.03 --window_length 5 --kl_scale 0.01 --gm_scale 0.99 --colorama --原创 2020-07-21 23:28:19 · 1137 阅读 · 0 评论 -
目前主流文本生成度量指标介绍
文本生成度量指标:目前文本生成领域的一大瓶颈就是评价度量指标进行大的创新改变;基于预训练模型和基于seq2seq的文本生成都能生成出很少语法错误,语句流利,语义通顺的句子;但是把文本生成的结果应用于日常仍然需要加大量的规则约束;本文介绍以下内容:介绍了以BLEU为代表的基于统计的文本评价指标;基于bert等预训练模型的文本评价指标。就data to text 和image caption,进一步介绍了其特有的评价模式;计算词重叠率的统计方法机器翻译 & 摘要 常用指标基于词重叠率原创 2020-07-19 14:18:29 · 1619 阅读 · 0 评论 -
word2vec(二)_基于负采样方法实现
参考:https://www.cnblogs.com/peghoty/p/3857839.html原创 2020-12-09 23:56:37 · 615 阅读 · 0 评论 -
tensorflow张量流代码_实现简单的三维卷积训练、可视化
import numpy as npimport h5pyimport tensorflow as tfimport timefrom sklearn import preprocessingimport matplotlib.pyplot as pltimport math# initial weightdef weight_variable(shape): initial = tf.truncated_normal(shape, stddev=0.1) # 初始...原创 2020-05-12 18:37:30 · 1267 阅读 · 0 评论 -
Word2vec(一)_基于分层softmax
原创 2020-12-08 22:47:57 · 372 阅读 · 0 评论 -
How to generate text: using different decoding methods for language generation with Transformers
How to generate text: using different decoding methods for language generation with TransformersIntroductionIn recent years, there has been an increasing interest in open-endedlanguage generation thanks to the rise of large transformer-basedlanguage mo转载 2020-05-28 13:17:17 · 529 阅读 · 0 评论 -
乘风破浪的PTM:两年来预训练模型的技术进展——摘要总结
链接:乘风破浪的PTM:两年来预训练模型的技术进展原创 2020-12-07 14:25:05 · 314 阅读 · 0 评论 -
TF-IDF与TextRank
原创 2020-12-01 00:38:40 · 274 阅读 · 0 评论 -
Multi-head整理—为什么 Transformer 需要进行 Multi-head Attention?
一.Attention is all you need论文中讲模型分为多个头,形成多个子空间,每个头关注不同方面的信息。 如果Multi-Head作用是关注句子的不同方面,那么不同的head就应该关注不同的Token;当然也有可能是关注的pattern相同,但是关注的内容不同,即V不同。 但是大量的paper表明,transformer或Bert的特定层有独特的功能,...原创 2019-10-13 06:51:47 · 4717 阅读 · 0 评论 -
详解nlp预训练词向量(下)——从GPT到BERT
从Word Embedding到GPTGPT是“Generative Pre-Training”的简称,从名字看其含义是指的生成式的预训练。GPT也采用两阶段过程,第一个阶段是利用语言模型进行预训练,第二阶段通过Fine-tuning的模式解决下游任务。 上图展示了GPT的预训练过程,其实和ELMO是类似的,主要不同在于两点:首先,特征抽取器不是用的RNN,而是用的Transf...原创 2019-06-12 03:58:55 · 3733 阅读 · 3 评论 -
Attention
一、背景知识:大致趋势: 1 本质:人类视觉感知场景时,不会从头到尾进行感知,而是根据观察注意特定的部分。 NLPattention计算方法: 本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射 计算attention三步: 第一步:将query和每个key进行相似度计算得到权重。常用的相似度计算函数有:点积、拼接、感知...原创 2019-06-02 16:42:07 · 519 阅读 · 0 评论 -
NLG简要调研(data2text+(Abstractive) Summarization)
NLG简介: 我们认为NLP = NLU + NLG,NLU-Neural Language Understanding指的自然语言理解,NLG-Neural Language Generation指的自然语言生成,两者是相辅相成的。具体NLG 可以按照输入输出分为两大类: 1.text – to – text:文本到语言的生成 2.data – to – text :数据到语言...原创 2020-04-27 10:14:24 · 1650 阅读 · 0 评论 -
BPE算法理解
原理(英文为例):1.把每个单词都拆成单个字母,在单词结尾加上结束符,并标记上这个词出现的频率2.(以2-gram为例)把连续相邻的2个字母,进行组合,比如a b c-->ab bc ,同样标记上这个词出现的频率3.统计不同两个字母组合的最大频率,并选出最大字母组合。4.用选出的最大字母组合替换掉第一步中拆开的 两个字母 比如用ab 去替换掉 每个单词中出现的a b5....原创 2019-08-31 15:59:17 · 1531 阅读 · 2 评论 -
pytorch 重写lstm 使用mask
@staticmethod def _forward_rnn(cell, input, masks, initial, drop_masks): max_time = input.size(0) # seq_len:41 output = [] hx = initial # ([32,200], [32,200]) 初始化值全为0...原创 2019-07-11 00:24:57 · 3443 阅读 · 3 评论 -
详解nlp预训练词向量(上)——从word2vec到ELMO
长话短说Bert具备广泛的通用性,就是说绝大部分NLP任务都可以采用类似的两阶段模式直接去提升效果。客观的说,把Bert当做最近两年NLP重大进展的集大成者更符合事实。 串起来这个故事的脉络就是自然语言的预训练过程,但是落脚点还是在Bert身上。要讲自然语言的预训练,得先从图像领域的预训练说起。图像领域的预训练预训练在图像领域的应用 1.训练数据小,不足以训练复杂网络 2.加快训...原创 2019-06-12 03:54:32 · 2648 阅读 · 0 评论 -
Attention机制鸟瞰(16年开始)
背景知识Attention机制可以理解为一种文本聚焦方法,基本思想是对文本分配注意力权重,把注意力集中在相关的文本内容,增加这部分的贡献。 假设q_t就是时刻t下的query向量,K是key矩阵,k_s是其中一个key向量,V是value矩阵,我们先对q_t和每个key进行相似度计算得到一个非归一化的score分数: 这里用到是最简单的点乘,分母是为了调节内积结果,使得内积不那么大...原创 2019-06-14 23:05:19 · 262 阅读 · 0 评论