
NLP
文章平均质量分 93
学习笔记
菜小白—NLP
这个作者很懒,什么都没留下…
展开
-
Sampled softmax模型:On Using Very Large Target Vocabulary for Neural Machine Translation
参考链接论文链接:https://arxiv.org/abs/1412.2007参考连接:https://blog.youkuaiyun.com/wangpeng138375/article/details/75151064一、神经机器翻译神经机器翻译一般使用encoder–decoderencoder–decoderencoder–decoder神经网络实现decoderdecoderdec...原创 2020-03-04 17:04:30 · 396 阅读 · 0 评论 -
Document-Level Relation Extraction:SSAN模型
参考链接论文链接:Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation Extraction代码链接:https://github.com/BenfengXu/SSANIntroduction 首先通过一个例子来简单阐述 一下Document-Level Relation Extraction:红色的线:表示共指关系;蓝色的线:表示句内关系,通过句内局部原创 2021-05-16 17:16:19 · 1175 阅读 · 0 评论 -
对比学习:MoCo :Momentum Contrast for Unsupervised Visual Representation Learning
参考链接论文链接:https://link.zhihu.com/?target=https%3A//arxiv.org/abs/1911.05722代码链接:https://github.com/facebookresearch/mocoIntroduction 无监督的表示学习再NLP领域已经取得了巨大的成功,比如:bert预训练模型;但是再CV领域,监督的表示学习还是比无监督的表示学习要好。这主要的原因是什么呢?论文认为:主要的原因是NLP和CV的信号空间不一样NLP是基于字典的离散的原创 2021-03-30 10:23:12 · 1382 阅读 · 0 评论 -
CapsNet模型:Dynamic Routing Between Capsules
1.CNN模型的缺陷CNN主要用于捕捉图形的局部特征,但是在探索这些特征之间的关系似乎不是特别好(比如相对位置关系、相对大小关系,特征的方向等等关系)如下面两幅图,由于局部特征相同,所以CNN可能将它们都识别成一张人脸:一个简单的CNN模型可以正确地提取鼻子,眼睛和嘴巴的特征,但是并不能提取出特征之间的相对关系:CapsNet模型就是为解决CNN这个缺陷而产生的。2.Capsules网络的概念在一般的神经网络中,一层一般由若干神经元组成,每个神经元对应一个常数(或者叫常数的输出和输出)。原创 2020-06-19 16:40:50 · 681 阅读 · 0 评论 -
BERT核心源码阅读笔记
一.参考链接BERT理论解读:https://blog.youkuaiyun.com/ACM_hades/article/details/89375058代码参考连接:https://github.com/graykode/nlp-tutorial二.代码import mathimport refrom random import *import numpy as npimport tor...原创 2020-04-14 21:05:06 · 548 阅读 · 1 评论 -
知识图谱简述:
一、 知识图谱的定义:知识图谱:知识图谱本质上是语义网络(Semantic Network)的知识库。可以简单地把知识图谱理解成多关系图(Multi-relational Graph)。多关系图一般包含多种类型的节点和多种类型的边。在知识图谱里,节点:我们通常表示一个实体(Entity);实体指的是现实世界中的事物比如人、地名、概念、药物、公司等边:表示实体间的一种关系(Relati...原创 2020-04-10 21:51:48 · 1191 阅读 · 0 评论 -
FastText模型:Enriching Word Vectors with Subword Information
参考链接论文链接:Enriching Word Vectors with Subword InformationFastText模型FastText模型是在skip-gram模型基础上提出来的,所有首需要回顾一下skip-gram模型,可以参考连接: skip-gram模型skip-gram模型图:在skip-gram模型中对词汇表中每个词www都对应着两个向量:输人向量uwu...原创 2020-04-02 00:12:11 · 1393 阅读 · 0 评论 -
常见损失函数总结
常见损失函数损失函数: 用来评价模型的预测值和真实值不一致的程度,损失函数越好,通常模型的性能越好。不同的模型用的损失函数一般也不一样。0-1损失函数(zero-one loss)公式:L(Y,f(X))={1Y=f(X)0Y≠f(X)L(Y,f(X))= \begin{cases} 1 & Y=f(X) \\ 0 & Y≠f(X)\end{cases} L(Y,f(X...原创 2020-03-29 00:06:02 · 1790 阅读 · 0 评论 -
深度学习优化器总结
深度学习优化器神经网络模型的学习方法(优化器)一般使用梯度下降算法:令网络模型的损失函数为:J(θ)J(θ)J(θ);其中θθθ是整个模型需要学习的参数。然后将参数θθθ向负梯度方向更新:θt=θt−1−η∇J(θ)θ_t=θ_{t-1}-η∇J(θ)θt=θt−1−η∇J(θ); ηηη为学习率表明梯度更新的步伐大小可以看出深度学习优化器的两个核心:梯度与学习率,前者决定...原创 2020-03-27 11:21:07 · 526 阅读 · 0 评论 -
激活函数总结
激活函数的作用没有激活函数带来的非线性,多层神经网络和单层无异,只能拟合一般的线性函数。为了使得神经网可以拟合复杂的函数需要向神经网络加入非线性激活函数,它可以使神经网络随意逼近复杂函数。神经元∑inwixi+b∑_i^nw_i x_i+b∑inwixi+b的输出值可能非常大, 该输出在未经修改的情况下传送至下一层神经元时,可能被转换成更大的值,这样可能需要极大算力。激活函数的一个任务...原创 2020-03-24 22:01:43 · 443 阅读 · 0 评论 -
残差网络:Deep Residual Learning for Image Recognition
参考链接参考论文:Deep Residual Learning for Image RecognitionIdentity Mappings in Deep Residual Networks参考博客:https://zhuanlan.zhihu.com/p/80226180https://zhuanlan.zhihu.com/p/42706477一、 梯度消失/梯度...原创 2020-03-23 18:13:32 · 664 阅读 · 0 评论 -
问答系统综述
问答系统基本概念问答系统的目标:给定一个问题, 能够得到简短、精确的答案.系统定义:一个能回答任意自然语言形式问题的自动机。处理流程:分析问题.检索包含答案的数据(检索数据).提取答案.对应流程中的三个过程有三个研究的基本问题:问题分析:如何去分析问题;信息检索:如何根据问题的分析结果去缩小答案 可能存在的范围;答案抽取:如何从可能存在答案的信息块中抽取答案。...原创 2020-03-18 20:52:31 · 2868 阅读 · 0 评论 -
Transformer-XL模型 核心源码阅读笔记
参考链接Transformer-XL模型理论:https://blog.youkuaiyun.com/ACM_hades/article/details/89310836参考项目链接:https://github.com/kimiyoung/transformer-xlAdaptive softmax 代码实现:理论链接:https://blog.youkuaiyun.com/ACM_hades/artic...原创 2020-03-08 22:41:24 · 1624 阅读 · 0 评论 -
蒙特卡洛积分和重要性采样(Importance Sampling)
一、蒙特卡洛积分蒙特卡洛积分概述:简而言之蒙特卡洛积分就是,在求定积分时,如果找不到被积函数的原函数,无法使用经典牛顿-莱布尼茨积分法得到定积分结果的。而蒙特卡洛积分方法利用一个随机变量对被积函数进行采样,并将采样值进行一定的处理可以得到定积分的一个近似值,当采样数量很高时,得到的近似值可以很好的近似原积分的结果。这样一来,我们就不用去求原函数的形式,就能求得积分的近似结果。补充一些基...原创 2020-03-04 10:21:08 · 6590 阅读 · 1 评论 -
随机采样方法与python实现
一、什么是采样在信号系统和数字信号处理中,采样是每隔一定的时间测量一次声音信号的幅值,把时间连续的模拟信号转换成时间离散幅值的采样信号。如果采样的时间间隔相等,这种采样称为均匀采样。在计算机系统中有一个重要的问题叫随机采样:就是给定一个概率分布p(x)p(x)p(x),我们如何按照该分布产生样本在机器学习或统计学习中,我们是给定一堆样本数据,通过参数估计的方法求出这堆样本所符合的概率分布...原创 2020-02-29 23:38:18 · 3922 阅读 · 0 评论 -
Adaptive input representations源码阅读笔记
一.参考链接理论解读:https://blog.youkuaiyun.com/ACM_hades/article/details/104541116代码参考连接:https://editor.youkuaiyun.com/md?articleId=104543812二.代码import torch.nn as nnclass AdaptiveInput(nn.Module): """ Th...原创 2020-02-27 20:10:06 · 540 阅读 · 0 评论 -
Embedding层压缩方法:Adaptive input representations for neural language modeling
参考链接论文链接:https://arxiv.org/abs/1809.10853项目参考:https://github.com/AranKomat/adapinp模型(Adaptive Input Representation):模型概述Adaptive Input Representation受Adaptive softmax模型启示而得出来的。首先我们将词汇表按词频降...原创 2020-02-27 19:07:13 · 1737 阅读 · 0 评论 -
Adaptive softmax模型:Efficient softmax approximation for GPUs
参考链接论文链接:https://arxiv.org/pdf/1609.04309v3.pdf项目链接:https://github.com/facebookresearch/adaptive-softmaxIntroduction:本文提出是的方法是adaptive softmax, 该算法目的是为了提高softmax函数的运算效率,适用于一些具有非常大词汇量的神经网络。在NLP...原创 2020-02-27 09:56:54 · 1727 阅读 · 0 评论 -
Transformer核心源码阅读笔记
一.参考链接Transformer理论解读:https://blog.youkuaiyun.com/ACM_hades/article/details/88898313代码参考连接:https://github.com/graykode/nlp-tutorial二.代码import numpy as npimport torchimport torch.nn as nnimport torc...原创 2020-02-17 18:56:58 · 613 阅读 · 2 评论 -
LSTM-Attention模型:Effective Approaches to Attention-based Neural Machine Translation
参考链接论文链接:https://arxiv.org/pdf/1508.04025v5.pdf项目链接: https://github.com/pytorch/fairseq模型(model):【1】Neural Machine Translation(NMT):神经机器翻译(NMT)是直接用神经网络去模拟条件概率:p(x∣y)p(x|y)p(x∣y)NMT一般由两个部分组成:...原创 2020-02-13 17:52:44 · 785 阅读 · 0 评论 -
Embeding技术:word2vec Parameter Learning Explained
参考链接论文链接:https://arxiv.org/pdf/1411.2738v4.pdf一、主要内容:word2vec模型:CBOW 模型:continuous bag-of-wordSG模型:skip-gram优化技术:分层softmax:hierarchical softmax负采样:negative sampling二、CBOW 模型:1、One...原创 2020-01-18 20:23:50 · 994 阅读 · 1 评论 -
Semi-Supervised Sequence Modeling with Cross-View Training
参考链接论文链接:https://arxiv.org/abs/1809.08370 代码链接:https://github.com/tensorflow/models/tree/master/research/cvt_text一、概述: 注意: 下面所说的 “表示” 可以简单理解为embeding(词向量)无监督表示(representation learning)学习算法(如 w...原创 2019-04-02 19:41:06 · 1467 阅读 · 0 评论 -
Highway Networks
参考链接论文链接:https://arxiv.org/pdf/1505.00387v2.pdf目标深层神经网络相比于浅层神经网络具有更好的效果,在很多方面都已经取得了很好的效果,特别是在图像处理方面已经取得了很大的突破,然而,伴随着深度的增加,深层神经网络存在的问题也就越大,像大家所熟知的梯度消失问题,这也就造成了训练深层神经网络困难的难题。2015年由Rupesh Kumar Srivas...原创 2019-04-08 10:16:29 · 1185 阅读 · 1 评论 -
正则化:Normalization
参考论文Batch NormalizationLayer Normalization 白化:独立同分布数据:机器学习界最喜欢的数据莫过于独立同分布数据. 独立同分布并非所有机器学习模型的必然要求,比如Naïve Bayes模型就建立在特征彼此独立的基础之上,而逻辑回归 和神经网络中则在非独立的特征数据上依然可以训练出很好的模型,但独立同分布的数据可以简化常规机器学习模型的训练、提升机器学...原创 2019-03-26 19:42:34 · 620 阅读 · 0 评论 -
GPT模型:Improving Language Understanding by Generative Pre-Training
参考链接https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdfhttps://github.com/openai/finetune-transformer-lm论文模型概述论文模型训练过程包括两步:第一步: 在大预料库训练高容量的语言模型;第二步: 要特殊任务的有标签的数据集上微调预训练的语言模...原创 2019-03-29 18:24:20 · 4036 阅读 · 0 评论 -
Transformer:Attention Is All You Need
一.参考链接https://arxiv.org/abs/1706.03762https://github.com/Kyubyong/transformerhttp://jalammar.github.io/illustrated-transformer二.概述模型的整体架构图:将Transform剥离出来其编码器部件,解码器部件及其它们的链接如下图:编码部件(encoding comp...原创 2019-03-29 17:34:04 · 662 阅读 · 0 评论 -
Convolutional Neural Networks for Sentence Classification(卷积神经网络用于句子分类)
本篇博文仅仅用于自己学习的笔记,若有错误欢迎指正。参考:论文:Convolutional Neural Networks for Sentence Classification代码:https://github.com/dennybritz/cnn-text-classification-tf Model(模型):模型结构图:模型思路:令xi∈Rkx_i∈R^kxi∈Rk表...原创 2019-02-16 13:37:40 · 688 阅读 · 0 评论 -
Word2vec:理论学习笔记
本篇博文仅仅用于自己学习的笔记。里面有很多地方是出于自己对模型算法的一些理解,若有错误欢迎指正。参考论文Efficient Estimation of Word Representations in Vector SpaceDistributed Representations of Words and Phrases and their Compositionality CBOW...原创 2019-01-31 15:41:32 · 1215 阅读 · 0 评论 -
Convolutional Sequence to Sequence Learning
论文链接:https://arxiv.org/abs/1705.03122一、模型框架(A Convolutional Architecture)1、模型的整体架构图: 2、位置向量(Position Embeddings)对于源句子:我们令源句子为 我们将其向量化为 其中 是词向量矩阵D中的一行。我们将X中的每个词的绝对位置编码成与词向量相同大小的位置向量: 。我们将X...原创 2018-12-15 15:31:20 · 1416 阅读 · 0 评论 -
理解 LSTM 网络(Understanding LSTM Networks)
参考链接参考博客:http://colah.github.io/posts/2015-08-Understanding-LSTMs/标准的循环神经网络(RNN)模型图:RNN包含一个循环,在上面的示例图中,神经网络的模块A,正在读取某个输入XtX_tXt,并输出一个值 hth_tht。循环可以使得信息从当前步传递到下一步。展开RNN:链式的特征揭示了 RNN 本质上是与序列相关的。他...原创 2019-04-08 20:21:58 · 643 阅读 · 0 评论 -
ELMo:Deep contextualized word representations
参考链接论文链接:https://arxiv.org/pdf/1802.05365v2.pdf代码链接:https://github.com/allenai/bilm-tf一、模型架构:ELMo: Embeddings from Language Models与最广泛使用的词嵌入不同,ELMo词嵌入是整个输入句子的函数。这个函数就像是一个神经网络内部状态的线性函数,该网络是一个带有字符卷...原创 2019-04-03 15:07:56 · 613 阅读 · 0 评论 -
XLNet模型: Generalized Autoregressive Pretraining for Language Understanding
链接论文链接:https://arxiv.org/pdf/1906.08237v1项目链接:https://github.com/zihangdai/xlnetTransformer-XL模型:https://blog.youkuaiyun.com/ACM_hadesTransformer模型:https://blog.youkuaiyun.com/ACM_hades一、背景知识1.AR语言模型:假设...原创 2019-07-03 14:47:47 · 706 阅读 · 0 评论 -
GloVe模型: Global Vectors for Word Representation
一、前言目前学习词向量的方法主流的有两种:全局矩阵分解的方法:比如LSA,HAL,这类方法首先统计语料库中的“词-文档”或者“词-词”共现矩阵,然后通过矩阵分解的方法来获得一个低维词向量。局部上下文窗口的方法,:比如skip-gram但是这两种方法都有缺点:全局矩阵分解的方法虽然利用了全局统计信息,但是他会过度重视共现词频高的单词对,然而这些词并没有多大的语义联系。局部上...原创 2019-06-24 18:26:20 · 565 阅读 · 0 评论 -
Character-Level Language Modeling with Deeper Self-Attention
链接论文链接:https://arxiv.org/pdf/1808.04444v2.pdf项目链接:https://github.com/nadavbh12/Character一、前言论文中展示了一个具有固定上下文长度的比较深的transformer模型(64-layer),该模型大大优于各种RNN模型的变体,并且在两个流行的基准测试中达到了最优水平。在实验中发现在中间网络层和中间...原创 2019-06-26 15:47:22 · 1267 阅读 · 1 评论 -
DrQA模型:Reading Wikipedia to Answer Open-Domain Questions
一、DrQA系统的构成:DrQA系统的构成Document Retriever:据问题检索出维基百科中的相关文章Document Reader:在文章中找到相应的段落并提取出答案DrQA系统整体图:二、 Document Retriever部分:通过问题检索出相关的文章有很多的方法,简单的方法就是统计两者的TF-IDF得到词袋模型向量,然后通过cosine similari...原创 2019-06-20 19:21:27 · 1019 阅读 · 0 评论 -
Bidirectional LSTM-CRF Models for Sequence Tagging
参考链接参考论文:https://arxiv.org/pdf/1508.01991v1.pdf代码:https://github.com/GlassyWing/bi-lstm-crf概述这篇论文主要讲的是:基于LSTM的序列标注模型(sequence tagging model)主要介绍:BI-LSTM-CRF模型BI-LSTM-CRF模型的优点:A. 可以有效的使用输入前后的特...原创 2019-04-25 17:12:58 · 1707 阅读 · 0 评论 -
BERT模型: Pre-training of Deep Bidirectional Transformers for Language Understanding
参考链接论文链接:https://arxiv.org/pdf/1810.04805v1.pdf代码链接:https://github.com/google-research/bert参考博客https://arxiv.org/pdf/1810.04805v1.pdf模型架构模型图BERT模型架构是:一个多层的双向的Transformer的encoder。Encoder如下图所示:L表...原创 2019-04-18 11:28:37 · 802 阅读 · 0 评论 -
Transformer-XL模型:Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
参考链接参考论文:https://arxiv.org/abs/1901.02860参考博客:https://ai.googleblog.com/2019/01/transformer-xl-unleashing-potential摘要Transformer网络具有学习更长期依赖性的潜力,但这种潜力往往会受到上下文长度固定 的限制。因此,我们提出了一种叫做 Transformer-XL 的...原创 2019-04-15 14:04:16 · 1477 阅读 · 0 评论 -
Character-Aware Neural Language Models
参考链接参考论文:https://arxiv.org/pdf/1508.06615v4.pdf模型架构整体架构图说明:该图描述的是一个典序的语言模型,当前的输入词是absurdity,预测词是is。第一步:查找character embeddings得到absurdity个字符的向量(维度为4),并将这些向量拼接成一个词矩阵CkC^kCk.第二步:将包含多个过滤器的卷积神经网络作...原创 2019-04-16 19:08:12 · 925 阅读 · 0 评论 -
The illustrated transformer:Attention Is All You Need
参考链接:http://jalammar.github.io/illustrated-transformer/论文链接:https://arxiv.org/abs/1706.03762 一、Transform的整体框架:在机器翻译中的Tansform可以像下图一样看作一个黑盒: Transform由三部分组成:编码器部分,解码器部分,以及它们之间的连接; 编码器...原创 2018-12-01 14:46:01 · 1854 阅读 · 1 评论