
NLP
c_木ss
走还没有走过的路
展开
-
NLP——IMDB数据集探索
目录:1.下载 IMDB 数据集2.探索数据3.将整数转换回字词4.准备数据5.构建模型6.创建验证集7.训练模型8.评估模型9.创建准确率和损失随时间变化的图1.下载 IMDB 数据集TensorFlow 中包含 IMDB 数据集。我们已对该数据集进行了预处理,将影评(字词序列)转换为整数序列,其中每个整数表示字典中的一个特定字词。import tensorflow as...原创 2019-03-03 13:19:08 · 2708 阅读 · 0 评论 -
2019-CS224N-Assignment 1: Exploring Word Vectors
认真看2019-cs224n这门课,好好学习!斯坦福作业一:http://web.stanford.edu/class/cs224n/assignments/a1_preview/exploring_word_vectors.html首先导入各种包,这里不用自己写代码:# All Import Statements Defined Here# Note: Do not add to thi...原创 2019-04-04 16:06:13 · 5431 阅读 · 13 评论 -
Transformer与BERT详解
Transformer自Attention机制提出后,加入attention的Seq2seq模型在各个任务上都有了提升,所以现在的seq2seq模型指的都是结合rnn和attention的模型,具体原理可以参考传送门的文章。之后google又提出了解决sequence to sequence问题的transformer模型,用全attention的结构代替了lstm,在翻译任务上取得了更好的成绩...原创 2019-03-23 01:51:45 · 24109 阅读 · 1 评论 -
Attention 注意力机制
文章来源:https://www.zhihu.com/question/68482809/answer/264632289注意力模型最近几年在深度学习各个领域被广泛使用,无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中,都很容易遇到注意力模型的身影。所以,了解注意力机制的工作原理对于关注深度学习技术发展的技术人员来说有很大的必要。人类的视觉注意力从注意力模型的命名方式看,很明显...原创 2019-03-19 10:50:44 · 2947 阅读 · 1 评论 -
从one-hot到word2vec再到FastText
0、one-hot representation(稀疏向量)稀疏向量,就是用一个很长的向量来表示一个词,向量的长度为词典的大小N,向量的分量只有一个1,其他全为0,1的位置对应该词在词典中的索引。 假设一段文本有1000个词,如果用一个矩阵来表示这个文本,那么这个矩阵的维度为1000*1000。假设文本中有‘’方便面‘’,‘’面条‘’,‘’狮子’‘这三个词,用one-hot向量表示 的话,可以表...原创 2019-03-13 16:50:26 · 1322 阅读 · 0 评论 -
通俗易懂的RNN总结(包含LSTM/GRU/BPTT等)
1、RNN介绍:RNN的基本想法是如何采用序列信息。在传统神经网络中我们假设所有的输入和输出都是相互独立的,但对于很多任务这样的假设并不合适。如果你想预测一个句子的下一个单词,的则需要知道之前的words包括哪些。RNN被称为循环因为它们对句子的每个元素都执行相同的任务,输出依赖于之前的计算;另一个理解RNN的方法是假设他们用记忆能够获取之前计算过的信息。理论上RNN能够利用任意长的句子,但是...原创 2019-03-17 21:49:25 · 3820 阅读 · 0 评论 -
正向最大匹配法、逆向最大匹配法、双向最大匹配法的分析、语言模型中unigram、bigram、trigram的概念以及N-Gram模型介绍
分词算法设计中的几个基本原则:1、颗粒度越大越好:用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表示的含义越确切,如:“公安局长”可以分为“公安 局长”、“公安局 长”、“公安局长”都算对,但是要用于语义分析,则“公安局长”的分词结果最好(当然前提是所使用的词典中有这个词)2、切分结果中非词典词越少越好,单字字典词数越少越好,这里的“非词典词”就是不包含在词典中的...转载 2019-03-04 20:54:33 · 20548 阅读 · 2 评论 -
文本挖掘预处理之TF-IDF原理 and 互信息的原理
TF-IDF介绍(维基百科):tf-idf(英语:term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。tf-idf加权的各种形式常被...原创 2019-03-07 13:36:50 · 1395 阅读 · 0 评论 -
一文读懂如何用LSA、PSLA、LDA和lda2vec进行主题建模
本文来自知乎:https://zhuanlan.zhihu.com/p/37873878本文是一篇关于主题建模及其相关技术的综述。文中介绍了四种最流行的技术,用于探讨主题建模,它们分别是:LSA、pLSA、LDA,以及最新的、基于深度学习的 lda2vec。在自然语言理解任务中,我们可以通过一系列的层次来提取含义——从单词、句子、段落,再到文档。在文档层面,理解文本最有效的方式之一就是分析其...原创 2019-03-09 21:59:55 · 1064 阅读 · 0 评论 -
CBOW模型实战——pytorch
CONTEXT_SIZE = 2 # 2 words to the left, 2 to the rightEMBEDDING_DIM = 100raw_text = """We are about to study the idea of a computational process.Computational processes are abstract beings tha...原创 2019-07-12 16:08:32 · 2325 阅读 · 2 评论