
NLP
Y·Not·Try
这个作者很懒,什么都没留下…
展开
-
LSTM+CRF
1.为什么不直接使用LSTM?关于标注任务,我们自然而然的可以想到,使用RNN序列模型,在每一时刻输出对应的隐状态Ht,然后进行每一时刻的逐帧softmax。为什么不行呢?主要原因在于,RNN模型(比如LSTM)没有考虑到输出类标之间的关联性,比如NER任务中,一些输出的类标之间是有顺序性的,而RNN虽然利用隐变量Ht学到了X之间的顺序关系,但是没有考虑到输出序列的顺序性。于是,我们将二者结合起来,使用RNN序列模型提取X之间的转移关系,使用CRF层来处理输出序列的顺序。2.CRF原理在CR原创 2020-09-28 23:09:03 · 1094 阅读 · 0 评论 -
HMM隐马尔可夫模型和维特比算法
文章目录前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言隐马尔可夫模型是关于时序的概率图模型,属于生成模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程。隐马尔可夫模型常用来处理诸如分词,词性标注,命名实体识别(NER)等问题序列标注问题。一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使..原创 2020-09-26 20:44:09 · 1055 阅读 · 0 评论 -
BERT,ELMO,GPT
1.BERTbert全称bidirectional encoder representation from transformer,是使用无监督方式利用大量无标注文本形成的语言模型,其架构为tranformer中的encoder。bert虽然利用了transformer的encoder部分,但是其在部分中还是略有不同。1.embeddingbert的embedding由三种embedding求和而成:token embedding是词向量,也就对应了transformer中的词嵌入部原创 2020-09-25 15:43:19 · 584 阅读 · 0 评论 -
Transformer理解
1.Transformer示意图transformer宏观上由左边的六层endocer和右边的六层encoder构成,这些block各不分享权重,在左侧的encoder部分,前一时刻的encoder输出作为下一时刻encoder的输入,直到最后时刻的encoder的输出向量会传递给decoder的每一个block(block中的encoder-decoder attention模块)作为其输入的一部分。下图所示的是encoder和decoder的详细释义图:我们先来看一下encoder部原创 2020-09-24 20:55:20 · 1109 阅读 · 0 评论 -
Seq2Seq和attention机制
1.seq2seq的设计初衷seq2seq设计的初衷是为了解决输入和输出都是不定长的问题,seq2seq使用encoder和decoder分别处理不定长的输入和输出,其示意图如下:图中的C背景变量,编码了输入序列的信息,在输出的第一时刻,我们将初始的隐状态S0和初始输出y0(<BOS>)以及C作为输入,产生了y1和隐状态S1,下一时刻的输入为C,y1和S1。2.seq2seq设计原理①endocer部分输入序列部分和普通的RNN没什么太大的区别,输入x可以直接使用索引,.原创 2020-09-23 16:37:23 · 340 阅读 · 0 评论 -
Glove和Fasttext
1.Gloveglove是一种使用词与词共现信息的词编码算法,要了解glove,首先需要知道共现频率矩阵,现在我们的语料库包括下面三份文档资料:I like deep learning.I like NLP.I enjoy flying.我们设定的窗口大小为1,也就是只看某个单词周围紧邻着的那个单词。此时,将得到一个对称矩阵——共现矩阵。因为在我们的语料库中,I 和 like做为邻居同时出现在窗口中的次数是2,所以下表中I 和like相交的位置其值就是2。而共现频率矩阵,需要原创 2020-09-22 20:36:11 · 625 阅读 · 0 评论 -
Word2Vec直观理解(全)
①在理解Word2Vec之前,我们需要首先明白一个问题:为什么不用one-hot?其实,无论是one-hot,抑或是Word2Vec,都是对词进行向量表示的一种手段,只不过one-hot更加简单,没有考虑上下文的关联,且任意两个one-hot向量的cosine similarity(余弦相似度,值越大夹角越小,我们认为两个向量越相近)都为0。此外,one-hot会随词表变大而变大,且特征极为稀疏。②Word2Vec的核心思维我们希望模型能够通过一个中心词去很好的预测其周围的单词,或利用周原创 2020-09-22 11:18:25 · 743 阅读 · 0 评论 -
DataFountain疫情情绪分析(一)---数据预处理
一,数据读取1.下载到手里面的数据如果直接使用pandas或者numpy读取会出现各类编码问题,使用各种方法测试均失效,解决办法:先使用excel内置工具将文档转为csv-utf8格式,再使用pandas读取相关数据。2.相对于numpy的loadtxt,更推荐使用pandas的readcsv,少了相当一部分麻烦。二,数据预处理1.获取的文本中,对于情感标签官方规定只有-1,...原创 2020-02-29 13:13:50 · 1985 阅读 · 0 评论