
NLP
BruceCheen
这个作者很懒,什么都没留下…
展开
-
学习:自己动手写word2vec (一):主要概念和流程
word2vec 是 Google 于 2013 年开源推出的一个用于获取词向量(word vector)的工具包,它简单、高效,因此引起了很多人的关注。我在看了@peghoty所写的《word2vec中的数学以后》(个人觉得这是很好的资料,各方面知识很全面,不像网上大部分有残缺),为了加深理解,自己用Python实现了一遍。贴在我的github上系列所有帖子自己动手写word2vec (一...原创 2019-11-11 12:17:36 · 402 阅读 · 0 评论 -
一步一步建立自己的神经网络
欢迎来到课程5的第一个作业!在此作业中,您将在numpy中构建第一个RNN。递归神经网络(RNN)对于自然语言处理和其他序列任务非常有效,因为它们具有“记忆”。他们可以阅读输入x⟨t⟩x^{\langle t \rangle}x⟨t⟩(例如单词)一次一个( (such as words) one at a time),并通过隐藏层激活(hidden layer activations)记住一些信...翻译 2019-02-21 11:03:14 · 794 阅读 · 0 评论 -
学习:从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
复制链接Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多NLP的任务的最好性能,有些任务还被刷爆了,这个才是关键。另外一点是Bert具备广泛的通用性,就是说绝大部分NLP任务都可以采用类似...转载 2019-03-21 10:48:26 · 511 阅读 · 0 评论 -
Attention Model(注意力模型)学习总结
添加链接描述添加链接描述Attention:深度学习里的Attention model其实模拟的是人脑的注意力模型,举个例子来说,当我们观赏一幅画时,虽然我们可以看到整幅画的全貌,但是在我们深入仔细地观察时,其实眼睛聚焦的就只有很小的一块,这个时候人的大脑主要关注在这一小块图案上,也就是说这个时候人脑对整幅图的关注并不是均衡的,是有一定的权重区分的。这就是深度学习里的Attention Mo...转载 2019-03-17 21:04:51 · 1136 阅读 · 0 评论 -
可视化神经机器翻译模型(基于注意力机制的Seq2seq模型)
复制链接5月25日更新:新图形(RNN动画,文字嵌入图),颜色编码,详细阐述了最后的注意事例。**注意:**下面的动画是视频。 触摸或悬停它们(如果您使用鼠标)以获得播放控件,以便您可以根据需要暂停。序列到序列模型是深度学习模型,在机器翻译,文本摘要和图像字幕等任务中取得了很大成功。 谷歌翻译在2016年底开始在生产中使用这种模型。这两个模型在两篇开创性的论文中进行了解释(Sutskever...转载 2019-03-21 15:13:15 · 2217 阅读 · 0 评论 -
学习Transformer(The Illustrated Transformer)
在上一篇文章中(previous post),我们研究了注意力机制 - 一种在现代深度学习模型中无处不在的(ubiquitous)方法。 注意力是一个有助于提高神经机器翻译(neural machine translation)应用程序性能的概念。 在这篇文章中(In this post),我们将介绍The Transformer–一个使用注意力来提高(boost)这些模型训练速度的模型。The ...转载 2019-03-25 14:39:20 · 537 阅读 · 0 评论 -
The Annotated Transformer(解读Transformer)
原链接转载 2019-03-28 12:21:33 · 3700 阅读 · 0 评论 -
RuntimeError: “exp” not implemented for 'torch.LongTensor'
添加链接描述转载 2019-04-15 14:44:06 · 1979 阅读 · 0 评论 -
学习:Bi-LSTM-CRF for Sequence Labeling
添加链接描述添加链接描述简书简书2转载 2019-04-29 08:15:55 · 276 阅读 · 0 评论 -
NLP中如何使用预训练的embeddings
接上一篇在这个kernel中,我想说明在构建深度学习NLP模型时我是如何进行有意义的预处理的(meaningful preprocessing)。我从两条黄金法则(golden rules)开始:当您有预先训练好的嵌入(pre-trained embeddings)时,不要使用标准的预处理步骤,如词干(stemming)或删除词(stopword removal)你们中的一些人在进行基...翻译 2019-02-19 23:39:37 · 1575 阅读 · 0 评论 -
kaggle:Quora Insincere Questions Classification
问题描述:今天任何一个主要网站的存在问题是如何处理有毒(toxic)和分裂(divisive)的内容。 Quora希望正面(head-on)解决(tackle)这个问题,让他们的平台成为用户可以安全地与世界分享知识的地方。Quora是一个让人们相互学习的平台。 在Quora上,人们可以提出问题,并与提供独特见解和质量回答(unique insights and quality answers)...翻译 2019-02-18 14:55:21 · 2076 阅读 · 0 评论 -
翻译:Attention Is All You Need
摘要:主要序列转导模型基于包括编码器(encoder)和解码器(decoder)的复杂递归或卷积神经网络。 性能最佳的模型还通过注意机制连接编码器和解码器。 我们提出了一种新的简单网络架构,Transformer,完全基于注意机制(based solely on attention mechanisms),完全免除(dispensing)递归(recurrence)和卷积。 两个机器翻译任务的实验...翻译 2019-02-11 20:31:45 · 1595 阅读 · 0 评论 -
学习:从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
复制链接Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多NLP的任务的最好性能,有些任务还被刷爆了,这个才是关键。另外一点是Bert具备广泛的通用性,就是说绝大部分NLP任务都可以采用类似...转载 2019-01-31 22:04:59 · 327 阅读 · 0 评论 -
学习:词嵌入向量WordEmbedding
复制链接词嵌入向量(WordEmbedding)是NLP里面一个重要的概念,我们可以利用WordEmbedding将一个单词转换成固定长度的向量表示,从而便于进行数学处理。本文将介绍WordEmbedding的使用方式,并讲解如何通过神经网络生成WordEmbedding。WordEmbedding的使用使用数学模型处理文本语料的第一步就是把文本转换成数学表示,有两种方法,第一种方法可以通过...转载 2019-02-02 19:02:08 · 2007 阅读 · 0 评论 -
学习:N-Gram模型
一、什么是n-gram模型N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。该模型基于这样一种假设,第N个词的出现...转载 2019-02-02 19:45:40 · 1553 阅读 · 0 评论 -
学习:word2vec原理
复制链接word2vec是google在2013年推出的一个NLP工具,它的特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。虽然源码是开源的,但是谷歌的代码库国内无法访问,因此本文的讲解word2vec原理以Github上的word2vec代码为准。本文关注于word2vec的基础知识。word2vec原理(一) CBOW与Skip-Gram模型基础...转载 2019-02-02 21:16:09 · 686 阅读 · 1 评论 -
学习:GloVe模型
模型目标:进行词的向量化表示,使得向量之间尽可能多地蕴含语义和语法的信息。输入:语料库输出:词向量方法概述:首先基于语料库构建词的共现矩阵,然后基于共现矩阵和GloVe模型学习词向量。统计共现矩阵设共现矩阵为X,其元素为Xi,jX_{i,j}Xi,j。Xi,jX_{i,j}Xi,j的意义为:在整个语料库中,单词i和单词j共同出现在一个窗口中的次数。举个栗子:设有语料库:...转载 2019-02-03 10:20:50 · 410 阅读 · 0 评论 -
翻译:GloVe: Global Vectors forWord Representation
摘要:最近学习单词的向量空间表示(vector space representations of words)的方法已成功地使用向量算法(vector arithmetic)捕获细粒度的语义(fine-grained semantic)和句法规则(syntactic regularities ),但这些规则的起源仍然是不透明的(opaque)。 我们分析并明确了(explicit)在单词向量中出现...翻译 2019-02-03 22:20:56 · 1525 阅读 · 0 评论 -
学习:Attention Is All You Need(1)
复制链接1Introduction本文是谷歌发表的文章,针对nlp里的机器翻译问题,提出了一种被称为”Transformer”的网络结构,基于注意力机制。文章提出,以往nlp里大量使用RNN结构和encoder-decoder结构,RNN及其衍生网络的缺点就是慢,问题在于前后隐藏状态的依赖性,无法实现并行,而文章提出的”Transformer”完全摒弃了递归结构,依赖注意力机制,挖掘输入和输出...转载 2019-02-04 10:50:44 · 530 阅读 · 0 评论 -
字符级别的语言模型---恐龙岛
Character level language model - Dinosaurus land(字符级别的语言模型—恐龙岛)欢迎来到Dinosaurus岛! 6500万年前,恐龙存在,在这项任务中他们又回来了。你负责一项特殊任务。领先的生物学研究人员正在创造新的恐龙品种并将它们带到地球上,而你的工作就是为这些恐龙命名。如果恐龙不喜欢它的名字,它可能会变成beserk,所以明智地选择!(choo...翻译 2019-02-21 18:20:52 · 1434 阅读 · 0 评论 -
Bert:论文阅读-BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
摘要:我们引入了一种名为BERT的语言表示模型,它代表Transformers的双向编码器表示(Bidirectional Encoder Representations)。与最近(recent)的语言表示模型(Peters et al.,2018; Radford et al.,2018)不同,BERT旨在(is designed to)通过联合调节(jointly conditioning)所...翻译 2019-01-31 15:28:46 · 2342 阅读 · 0 评论