
NLP
文章平均质量分 77
zkq_1986
这个作者很懒,什么都没留下…
展开
-
【NLP】常用NLP会议与知名研究机构
ACL: The Association for Computational Linguisticshttp://www.aclweb.org/AAAI: Association for the Advancement of Artificial Intelligencehttp://www.aaai.org/ICCL: The International Committee on Computational Linguisticshttp://www.dcs.shef.ac.uk/res..转载 2021-01-05 11:47:52 · 815 阅读 · 0 评论 -
「自然语言处理(NLP)」2020年八大顶会信息整理!
「自然语言处理(NLP)」2020年八大顶会信息整理!国际学术会议是一种学术影响度较高的会议,它具有国际性、权威性、高知识性、高互动性等特点,其参会者一般为科学家、学者、教师等。针对自然语言处理(NLP)方向比较著名的几个会议有:ACL、EMNLP、NACAL、CoNLL、IJCNLP、CoNLL、IJCNLP、COLING、ICLR、AAAI、NLPCC等,下面收集了各个会议在2020年的举办时间、地点以及投稿截止时间,供大家参考。如果各位对上面的会议不是很了解,可以访问一下,上面贴出来的链接。.转载 2020-12-27 23:09:17 · 3402 阅读 · 0 评论 -
【NLP】BERT论文的核心:详解BERT模型架构
论文的核心:详解BERT模型架构本节介绍BERT模型架构和具体实现,并介绍预训练任务,这是这篇论文的核心创新。模型架构BERT的模型架构是基于Vaswani et al. (2017) 中描述的原始实现multi-layer bidirectional Transformer编码器,并在tensor2tensor库中发布。由于Transformer的使用最近变得无处不在,论文中的实现与原始实现完全相同,因此这里将省略对模型结构的详细描述。在这项工作中,论文将层数(即Transformer b转载 2020-11-27 11:48:02 · 1249 阅读 · 0 评论 -
【NLP】中文命名实体公开语料
https://github.com/CLUEbenchmark/CLUENER2020As we can see in Table 3, for MSRANER[7] and PeopleDailyNER3 dataset, they only have three classic categories (person name, location and organization), while WeiboNER[8, 9] add a category of Geo-political; For原创 2020-10-29 16:57:56 · 706 阅读 · 0 评论 -
【面试】GloVe、word2vec和lsa区别
GloVe 与 Word2Vec 进行对比:Word2Vec 有神经网络,GloVe 没有; Word2Vec 关注了局部信息,GloVe 关注局部信息和全局信息; 都有滑动窗口但 Word2Vec 是用来训练的,GloVe 是用来统计共现矩阵的; GloVe 的结构比 Word2Vec 还要简单,所以速度更快;再试着将 GLoVe 与 SVD 进行对比:SVD 所有单词统计权重一致,GloVe 对此进行了优化; GloVe 使用比值而没有直接使用共现矩阵。当然 GloVe 看着那么好.原创 2020-09-02 20:40:04 · 958 阅读 · 1 评论 -
【面试】fastText与word2vec的区别
区别:1. 训练方式不同,fastText通过句子的类别标签作为目标训练词向量,同时引入ngram优化准确性。word2vec通过预测上下文获得词向量。2. fastText能胜任分类任务,word2vec仅在于获得词向量。3. 训练速度,fastText优于word2vec。4.准确性,各有千秋,适应不同应用场景。...原创 2020-09-01 19:58:46 · 2621 阅读 · 1 评论 -
【面试】word2vec中负采样原理及作用
1. 什么是负采样? 负采样(negative sampling)是与正采用相反的含义。 2. 为什么采用负采样?将多分类问题转换成K+1个二分类问题,从而减少计算量,加快训练速度。负采样的概率分布在tensorflow中实现的是:其中s(w_i))是词w_i在字典中根据词频逆排序的序号....原创 2020-09-01 11:11:26 · 5380 阅读 · 0 评论 -
【面试】LSTM+CRF中LSTM和CRF各有什么作用
LSTM层如果单用LSTM进行序列标注,那么它是比较好理解的,这就相当于对文本序列中每一个token进行分类,得到它的标注标签,之所以采用LSTM是考虑到语言的特性是前后依赖的,所以用LSTM的hidden的向量来描述当前以及之前所见到字的。大致流程如图所示:图1 LSTM层做NER但是光用LSTM来进行标注有一个问题,比如上图,我们发现预测的结果中一个人名后面紧接这一个组织名,这在正常的语言表达中是比较少见的,也就是概率比较低的。因此,CRF层的出现,就是为了能够让我们的模型学习到一些类似原创 2020-08-29 11:03:12 · 1210 阅读 · 0 评论 -
【NLP】hanlp依存句法分析使用说明
主函数名为:HanLP.parseDependency("以色列20日对加沙地带实施轰炸,造成3名巴勒斯坦武装人员死亡")运行结果如下:image.png函数返回值数据结构和背景知识:CONLL标注格式包含10列,分别为:———————————————————————————------------------------------ID FORM LEMMA CPOSTAG POSTAG FEATS HEAD DEPREL PHEAD PDEPREL——————————————转载 2020-05-28 19:54:50 · 4590 阅读 · 0 评论 -
【NLP】gensim lda使用方法
OptimizedLatent Dirichlet Allocation (LDA) <https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation>in Python.For a faster implementation of LDA (parallelized for multicore machines), see ...转载 2020-05-03 10:32:54 · 2913 阅读 · 0 评论 -
【NLP】ACL2019-多轮对话
论文:Modeling Semantic Relationship in Multi-turn Conversations withHierarchical Latent VariablesLei Shen,Yang Feng,Haolan Zhan模型框架如下图:zc is used to control thewhole background in which t...原创 2020-01-22 17:00:29 · 906 阅读 · 0 评论 -
【NLP】元学习关系分类 (meta learning relation classification)
1)用meta-learning学习深度网络的参数;迭代次数一般150-1000。2)微调:用常规的分类学习来学习深度网络的参数;迭代次数一般10-30。最终效果对比:F1平均提高19%,提高明显。...原创 2020-01-22 09:50:26 · 1111 阅读 · 1 评论 -
【深度学习】为什么需要引入Attention?
如下两句话:(1)乔布斯执掌的苹果成为全球市值第一的公司。(2)山东产的苹果,又大又圆,很好吃。在对苹果这个词进行语义理解时,有了Attention,就能通过上下文来辅助判断。比如第一句话的,上下文中的乔布斯和公司两个词贡献很大,我们能将“苹果”理解为是一个公司。第二句的“苹果”,有个“产”字和“吃”字,我们能将“苹果”理解为是一种水果。为什么双向RNN不能通过上下文理解...原创 2019-11-02 10:27:19 · 490 阅读 · 0 评论 -
【NLP】中文分词之未登录词
·未登录词:unknown words,unlisted words, out-of-vocabulary .·遇到未登录词时,如果没有适用的词汇发现手段,这些词就会被错误地切开,例如: 考 研 的 时候 俄罗斯 总统 梅 德 韦 杰 夫 ·有些未登录词是不可能被穷尽的,例如数字串、人名等等。·思考:基于构词知识的未登录词识别。...原创 2019-02-27 13:53:24 · 3615 阅读 · 0 评论 -
【NLP】Stanford依存句法关系解释
Stanford依存句法关系解释ROOT:要处理文本的语句IP:简单从句NP:名词短语VP:动词短语PU:断句符,通常是句号、问号、感叹号等标点符号LCP:方位词短语PP:介词短语CP:由‘的’构成的表示修饰性关系的短语DNP:由‘的’构成的表示所属关系的短语ADVP:副词短语ADJP:形容词短语DP:限定词短语QP:量词短语NN:常用名词...转载 2019-06-21 11:17:25 · 1863 阅读 · 0 评论 -
【NLP】命名实体识别CoNLL2003语料公测排行榜(最新)
命名实体识别CoNLL2003CoNLL 2003 datahttps://www.clips.uantwerpen.be/conll2003/ner/CoNLL 2003 (English)TheCoNLL 2003 NER taskconsists of newswire text from the Reuters RCV1corpus tagged with fo...转载 2019-06-21 11:10:57 · 7714 阅读 · 2 评论 -
【NLP】Transformer模型解读
transformer模型解读 最近在关注谷歌发布关于BERT模型,它是以Transformer的双向编码器表示。顺便回顾了《Attention is all you need》这篇文章主要讲解Transformer编码器。使用该模型在神经机器翻译及其他语言理解任务上的表现远远超越了现有算法。 在 Transformer 之前,多数基于神经网络的机器翻译方法依赖于循环神经网络(RNN)...转载 2019-06-04 20:12:14 · 1330 阅读 · 0 评论 -
【NLP】自底向上构建知识图谱全过程
知识图谱的构建技术主要有自顶向下和自底向上两种。其中自顶向下构建是指借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库里。而自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的信息,加入到知识库中。转载自:https://blog.youkuaiyun.com/sinat_26917383/article/details/6647...转载 2019-06-19 11:05:49 · 1539 阅读 · 0 评论 -
【NLP】中文分词歧义举例
·组合型歧义,例如: 从 马上 跳 下来 (从 马 上 跳 下来) 他 将来 我 校 讲学 (从 将 来 我 校 讲学)·交集型歧义,例如: 使用户 满意 (使用 户 满意) 研究生命 的 起源 (研究生 命 的 起源)·组合型歧义出现概率低,消解更为困难。 注:一个串可以切开也可...原创 2019-02-27 11:47:13 · 7691 阅读 · 0 评论 -
【NLP】命名实体识别NER——BiLSTM+CRF方法
BiLSTM加上softmax层后就可以直接用来做序列标注了,但考虑到文本语义中上下文转换的合法性,引入CRF层对BiLSTM网络层输出的结果做一定的约束限制,以解决类似下图所示的问题:上图中的标签“I-Organization I-Person”这种很明显的错误。BiLSTM-CRF模型为两层结构,第一层为双向LSTM层,负责自动提取句子的特征;第二层为CRF层,进行句子集的标注...原创 2019-06-05 14:55:37 · 1131 阅读 · 0 评论 -
【NLP】命名实体识别NER——CRF方法详解
命名实体标注对于给定的长度为 m 的序列 X,假设标注的结果为 [ y1, … , ym ] ,yi=PER/LOC/ORG/O,则命名实体标注问题可以表示在已知序列 X 的条件下,找出使得 [ y1, … , ym ] 的概率 P ( y1, … , ym ) 最大的序列 [ Y1, … , Ym ] 。这个问题适合用线性链条件随机场建立模型:结合前面模型的一般形式,我们定...转载 2019-06-05 14:54:38 · 7086 阅读 · 0 评论 -
【NLP】命名实体标注方法——BIOES标注法
B表示这个词处于一个实体的开始(Begin), I 表示内部(inside), O 表示外部(outside), E 表示这个词处于一个实体的结束为止, S 表示,这个词是自己就可以组成一个实体(Single)BIOES 是目前最通用的命名实体标注方法。...原创 2019-06-05 11:38:25 · 15962 阅读 · 1 评论 -
【NLP】关系提取方法之CNN+BiGRU
关系提取步骤:1. 通过实体识别,将实体提取出来,形成如下的上下文:*****e1*******e2********2. 利用CNN+BiGRU将上下文编码。3.对编码进行二分类,分类器可以采用SVM。二分类时,即判断该上下文是否属于某个关系。...原创 2019-05-30 15:52:33 · 3431 阅读 · 0 评论 -
【nlp】融合版 实体提取方法
1. 用领域语料训练的BiLSTM+CRF抽取实体2. 按规则抽取地名3. 按规则抽取日期和时间4. 用Stanford CoreNLP抽取实体5. 用人民日报训练的CRF抽取实体6. 用领域语料训练的CRF抽取实体7. 按规则抽取机构名8. 合并生成最终结果...原创 2019-05-27 11:28:01 · 1005 阅读 · 0 评论 -
【NLP】
序交叉熵损失是分类任务中的常用损失函数,但是是否注意到二分类与多分类情况下的交叉熵形式上的不同呢?本次记录一下二者的不同。两种形式这两个都是交叉熵损失函数,但是看起来长的却有天壤之别。为什么同是交叉熵损失函数,长的却不一样呢?因为这两个交叉熵损失函数对应不同的最后一层的输出:第一个对应的最后一层是softmax,第二个对应的最后一层是sigmoid。信息论中的...转载 2019-05-09 15:27:09 · 309 阅读 · 0 评论 -
【NLP】关系抽取之cnn模型改进
1. 为什么需要把cnn的输出层的多分类改为多个二分类?因为两实体可能同时属于多个关系,如果用多分类,就只能预测出一个关系。因此使用多个二分类,解决该问题。...原创 2019-05-08 10:59:15 · 1156 阅读 · 0 评论 -
【NLP】词嵌入之GloVe详解
什么是GloVe?GloVe的全称叫Global Vectors for Word Representation,称为全局词向量,是与word2vec相似的一种词向量表达。GloVe是如何实现的?GloVe的实现分为以下三步:根据语料库(corpus)构建一个共现矩阵(Co-ocurrence Matrix)XX(什么是共现矩阵?),矩阵中的每一个元素Xij代表单词i和上下文单词j...转载 2019-06-21 15:55:47 · 5195 阅读 · 0 评论 -
【NLP】词向量之fastText原理
1. fastText和word2vec的区别相似处:图模型结构很像,都是采用embedding向量的形式,得到word的隐向量表达。 都采用很多相似的优化方法,比如使用Hierarchical softmax优化训练和预测中的打分速度。不同处:模型的输出层:word2vec的输出层,对应的是每一个term,计算某term的概率最大;而fasttext的输出层对应的是分类的label。...转载 2019-06-21 16:11:45 · 651 阅读 · 0 评论 -
【NLP】FastText句子语义深度表示
FastText是Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,不过这个项目其实是有两部分组成的,一部分是这篇文章介绍的 fastText 文本分类(paper:A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, Bag of Tricks for Efficient Text Classificat转载 2018-01-24 14:08:14 · 1566 阅读 · 0 评论 -
【NLP】Gelu高斯误差线性单元解释
Gaussian Error Linerar Units(GELUS)论文链接:https://arxiv.org/abs/1606.08415不管其他领域的鄙视链,在激活函数领域,大家公式的鄙视链应该是:Elus > Relu > Sigmoid ,这些激活函数都有自身的缺陷, sigmoid容易饱和,Elus与Relu缺乏随机因素。在神经网络的建模过程中,模型很重要的性质...转载 2019-09-17 09:54:23 · 624 阅读 · 0 评论 -
【NLP】Bert base和 Bert large参数对比
Bert base的网络结构:L(网络层数)=12, H(隐藏层维度)=768, A(Attention 多头个数)=12, Total Parameters= 12*768*12=110M使用GPU内存:7G多Bert base的网络结构:) and BERTLARGE (L=24, H=1024,A=16, Total Parameters=340M).使用GPU内存:3...原创 2019-09-05 19:59:56 · 17775 阅读 · 0 评论 -
【NLP】Bert预训练中Mask LM和Next Sentence Prediction输入输出是什么形式?
1. Mask LM的输入输出形式:input : [CLS] I like[MASK] (原始句子:I like cat)ouput: Ch1 h2 h3对h3增加一层所有词的softmax,预测其输出是否为cat。2. Next Sentence Prediction输入输出形式:input [CLS] I like cat. [SEP] He like d...原创 2019-09-05 19:37:54 · 7250 阅读 · 0 评论 -
【NLP】ACL-2019 录用论文
LONG PAPERS (MAIN CONFERENCE)SphereRE: Distinguishing Lexical Relations with Hyperspherical Relation EmbeddingsChengyu Wang, XIAOFENG HE and Aoying ZhouLearning from Dialogue after Deployment: Fee...原创 2019-09-04 15:25:27 · 25468 阅读 · 2 评论 -
【NLP】如何理解Bert中的warmup_proportion
warmup_proportion表示,慢热学习的比例。比如warmup_proportion=0.1,总步数=100,那么warmup步数就为10。在1到10步中,学习率会比10步之后低,10步之后学习率恢复正常。在1到10步之间,学习率的改变一般有以下几种方式:"warmup_cosine": WarmupCosineSchedule,"warmup_constant": Warm...原创 2019-09-02 12:01:46 · 8858 阅读 · 2 评论 -
【NLP】bert中的[CLS]甚意思?
bert论文中提到:“GPT uses a sentence separator ([SEP]) andclassifier token ([CLS]) which are only introducedat fine-tuning time; BERT learns[SEP], [CLS] and sentence A/B embeddingsduring pre-training.”...原创 2019-08-30 13:55:58 · 11744 阅读 · 0 评论 -
【NLP】micro F1与macro F1区别
micro F1是,通过 计算所有分类的准确率P、召回率R,再得出总的F1。macro F1是,通过计算所有分类的F1,再通过简单平均,得到总的F1。原创 2019-08-28 14:57:58 · 1739 阅读 · 0 评论 -
【NLP】global attention与local attention原理详解
1. global attention1. local attentionIn concrete details, the model first generates an aligned position p_t for each target word at time t. The context vector ct is then derived as a wei...原创 2019-07-17 14:16:30 · 864 阅读 · 0 评论 -
【NLP】Transformer框架原理详解-2
从宏观的视角开始首先将这个模型看成是一个黑箱操作。在机器翻译中,就是输入一种语言,输出另一种语言。那么拆开这个黑箱,我们可以看到它是由编码组件、解码组件和它们之间的连接组成。编码组件部分由一堆编码器(encoder)构成(论文中是将6个编码器叠在一起——数字6没有什么神奇之处,你也可以尝试其他数字)。解码组件部分也是由相同数量(与编码器对应)的解码器(decoder)组成的。所有的...转载 2019-07-15 10:26:57 · 326 阅读 · 0 评论 -
【NLP】self-attention运行原理详解
self-attention是如何运行的?在原论文里,作者很霸气的丢出了一个公式,要直接去理解这个公式,对矩阵运算不是非常熟练的同学可能有点困难,因此,我们还是先拆分去考量一个单词向量的计算过程,再回过头来理解这个矩阵的运算。如下图,是进行运算的第一步,Figure 4.png对于每一个单词向量(Embedding后的),我们都会计算出3个不同的向量,名为query, ke...转载 2019-07-13 15:36:52 · 990 阅读 · 0 评论 -
【NLP】Transformer框架原理详解-1
主流序列转导模型基于复杂的循环神经网络或卷积神经网络,这些神经网络包含一个编码器和一个解码器。性能最好的模型还通过attention机制将编码器和解码器连接起来。我们提出一种新的简单的网络架构Transformer,仅基于attention机制并完全避免循环和卷积。对两个机器翻译任务的实验表明,这些模型在质量上更加优越、并行性更好并且需要的训练时间显著减少。我们的模型在WMT 2014英语...转载 2019-07-13 15:01:30 · 3705 阅读 · 0 评论