
NLP
文章平均质量分 91
CopperDong
纯属巧合
展开
-
NLP:自回归(Autoregressive LM)与自编码语言模型(Autoencoder LM)
链接:https://zhuanlan.zhihu.com/p/70257427自回归根据上文内容预测下一个可能跟随的单词,就是常说的自左向右的语言模型任务,或者反过来也行,就是根据下文预测前面的单词,这种类型的LM被称为自回归语言模型。(GPT,ELMO)GPT 就是典型的自回归语言模型。ELMO尽管看上去利用了上文,也利用了下文,但是本质上仍然是自回归LM,这个跟模型具体怎么实现有关系。ELMO是做了两个方向(从左到右以及从右到左两个方向的语言模型),但是是分别有两个方向的自回归LM,然后把LST转载 2020-05-13 09:45:46 · 1183 阅读 · 0 评论 -
常见的32项NLP任务以及对应的评测数据、评测指标、目前的SOTA结果以及对应的Paper
任务 描述 corpus/dataset 评价指标 SOTA 结果 Papers Chunking 组块分析 Penn Treebank F1 95.77 ...转载 2020-05-07 16:19:45 · 1402 阅读 · 0 评论 -
Deep Biaffine Attention for Neural Dependency Parsing
原文https://www.hankcs.com/nlp/parsing/deep-biaffine-attention-for-neural-dependency-parsing.html这是斯坦福专攻Dependency Parsing的博士生Dozat在ICLR 2017上的论文,拿到了graph-based方法中的最高分,改进版还拿到了CoNLL 2017 Shared Task的第一...转载 2020-05-07 15:28:31 · 1327 阅读 · 0 评论 -
dependency parser 项目汇总
McDonald 2005https://github.com/dorcoh/DependencyParserSimple and Accurate Dependency Parsing Using Bidirectional LSTM Feature Representationshttps://github.com/Horse-G/NLP_neural_networkRecurre...原创 2020-01-03 11:52:21 · 376 阅读 · 0 评论 -
文本分类数据集
文本分类数据集https://hyper.ai/datasets搜狐新闻文本分类数据集官网https://www.sogou.com/labs/resource/list_news.php数据集:https://pan.baidu.com/s/1V6o20temK2v3j-bo16x94g提取码:fech今日头条中文新闻(文本)分类数据集https://github.c...原创 2019-11-29 11:58:04 · 3019 阅读 · 0 评论 -
条件随机场(CRF)原理和实现
对数域操作函数class Logspace: def __init__(self): self.LOGZERO =np.nan def eexp(self,x): if np.isnan(x): return 0 else: return np.exp(x) def eln...转载 2019-10-28 14:51:26 · 615 阅读 · 0 评论 -
语义依存分析 表
https://www.ltp-cloud.com/intro/#srl_how语义依存分析 (Semantic Dependency Parsing, SDP),分析句子各个语言单位之间的语义关联,并将语义关联以依存结构呈现。 使用语义依存刻画句子语义,好处在于不需要去抽象词汇本身,而是通过词汇所承受的语义框架来描述该词汇,而论元的数目相对词汇来说数量总是少了很多的。语义依存分析目标是跨越句...原创 2018-09-10 20:40:10 · 4201 阅读 · 0 评论 -
语义角色标注表
LTP 的语义角色 https://www.ltp-cloud.com/intro/#srl_how语义角色标注 (Semantic Role Labeling, SRL) 是一种浅层的语义分析技术,标注句子中某些短语为给定谓词的论元 (语义角色) ,如施事、受事、时间和地点等。其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。 仍然是上面的例子,语义角色标注的结果为:...原创 2018-09-10 20:29:02 · 3205 阅读 · 0 评论 -
使用中文维基百科进行GloVe实验
1. 环境及语料1.1 环境Python GloVe1.2 语料 处理之后的中文Wiki 处理步骤参考我的这篇博客:使用中文维基百科进行Word2Vec实验。处理之后得到文件:corpus.zhwiki.segwithb.txt2. 实验2.1 GloVe获取GloVe,命令:wget http://www-nlp.stanford.edu/software...转载 2018-09-17 14:46:32 · 906 阅读 · 0 评论 -
用条件随机场CRF进行字标注中文分词(Python实现)
http://www.tuicool.com/articles/zq2yyi http://blog.youkuaiyun.com/u010189459/article/details/38546115主题 中文分词 Python 本文运用字标注法进行中文分词,使用4-tag对语料进行字标注,观察分词效果。模型方面选用开源的条件随机场工具包“ CRF++: Yet Anoth...转载 2018-08-10 19:57:56 · 2499 阅读 · 0 评论 -
NeuralCoref: python的共指消解工具,向代词指代的问题进军!
共指消解 首先简要地说说共指消解是什么,有什么用处。假设机器正在阅读一个这样的文本: 克劳德·莫奈是印象派代表人物和创始人之一。 他最重要的风格是改变了阴影和轮廓线的画法。 1 2 如果机器想要从这段话中了解到关于莫奈风格的知识,它首先必须知道,第二句话中的“他”指的就是莫奈。弄清代词的指代就是共指消解中的一个典型任务。 关于共指消解,更详细的概念可以...转载 2018-09-25 14:26:02 · 2006 阅读 · 2 评论 -
轻松理解条件随机场(CRF)
理解条件随机场最好的办法就是用一个现实的例子来说明它。但是目前中文的条件随机场文章鲜有这样干的,可能写文章的人都是大牛,不屑于举例子吧。于是乎,我翻译了这篇文章。希望对其他伙伴有所帮助。原文在这里[http://blog.echen.me/2012/01/03/introduction-to-conditional-random-fields/]想直接看英文的朋友可以直接点进去了。我在翻译时...转载 2018-08-10 17:22:57 · 1489 阅读 · 0 评论 -
带你愉快的理解CRF
本文希望用尽可能简短的语言把CRF(条件随机场,Conditional Random Field)的原理讲清楚,这里In A Nutshell在英文中其实有“导论”、“科普”等意思(霍金写过一本《果壳中的宇宙》,这里东施效颦一下)。网上介绍CRF的文章,不管中文英文的,基本上都是先说一些概率图的概念,然后引入特征的指数公式,然后就说这是CRF。所谓“概率图”,只是一个形象理解的说法,然而如...转载 2018-08-10 16:57:14 · 791 阅读 · 0 评论 -
北大词性标注集
代码 名称 帮助记忆的诠释 Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。 a 形容词 取英语形容词adjective的第1个字母。 ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。 an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。 b ...转载 2018-08-10 14:01:09 · 1440 阅读 · 0 评论 -
利用中文数据跑Google开源项目word2vec
一直听说word2vec在处理词与词的相似度的问题上效果十分好,最近自己也上手跑了跑Google开源的代码(https://code.google.com/p/word2vec/)。1、语料首先准备数据:采用网上博客上推荐的全网新闻数据(SogouCA),大小为2.1G。 从ftp上下载数据包SogouCA.tar.gz:1 wget ftp://ftp.labs.sogou.c...转载 2018-07-30 14:28:24 · 1379 阅读 · 0 评论 -
如何用简单易懂的例子解释条件随机场(CRF)模型?它和HMM有什么区别?
作者:Scofield链接:https://www.zhihu.com/question/35866596/answer/236886066来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。so far till now, 我还没见到过将CRF讲的个明明白白的。一个都没。就不能不抄来抄去吗?我打算搞一个这样的版本,无门槛理解的。——20170927陆陆续续把调研学习工作...转载 2018-07-16 14:56:28 · 14442 阅读 · 12 评论 -
Python自然语言处理实战(4):词性标注与命名实体识别
4.1 词性标注 词性是词汇基本的语法属性,通常也称为词类。从整体上看,大多数词语,尤其是实词,一般只有一到两个词性,且其中一个词性的使用频次远远大于另一个,即使每次都将高频词性作为词性选择进行标注,也能实现80%以上的准确率。目前较为主流的方法是如同分词一样,将句子的词性标注作为一个序列标注问题来解决。 较为主流的词性标注规范有北大的词性标注集和滨州词性标注集两大类。 ...原创 2018-07-16 15:01:29 · 9760 阅读 · 1 评论 -
Python自然语言处理实战(5):关键词提取算法
5.1 关键词提取技术概述 相对于有监督的方法而言,无监督的方法对数据的要求就低多了。既不需要一张人工生成、维护的词表,也不需要人工标准语料辅助进行训练。因此,这类算法在关键词提取领域的应用更受到大家的青睐。目前常用的算法有TF-IDF算法、TextRank算法和主题模型算法(包括LSA、LSI、LDA等)5.2 关键词提取算法TF/IDF算法 TF-IDF(Term Frequenc...原创 2018-07-16 18:08:08 · 10801 阅读 · 8 评论 -
Python自然语言处理实战(7):文本向量化
7.1 文本向量化概述 文本表示是自然语言处理中的基础工作,文本表示的好坏直接影响到整个自然语言处理系统的性能。文本向量化是文本表示的一种重要方式。顾名思义,文本向量化就是将文本表示成一系列能够表达文本语义的向量。无论是中文还是英文,词语都是表达文本处理的最基本单元。当前阶段,对文本向量化大部分的研究都是通过词向量化实现的。与此同时,也有相当一部分研究者将句子作为文本处理的基本单元,于是...原创 2018-07-18 00:21:05 · 7274 阅读 · 0 评论 -
Python自然语言处理实战(8):情感分析技术
实战电影评论情感分析 情感分析是一段文字表达的情绪状态。其中,一段文本可以使一个句子、一个段落或者一个文档。主要涉及两个问题:文本表达和文本分类。在深度学习出现之前,主流的表示方法有BOW(词袋模型)和topic model(主题模型),分类模型主要有SVM和LR。 载入数据:IMDB情感分析数据集,训练集和测试集分别包含了25000条已标注的电影评论,满分了...原创 2018-07-18 20:47:34 · 4682 阅读 · 5 评论 -
关于深度学习中的注意力机制,这篇文章从实例到原理都帮你参透了
最近两年,注意力模型(Attention Model)被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中,是深度学习技术中最值得关注与深入了解的核心技术之一。 本文以机器翻译为例,深入浅出地介绍了深度学习中注意力机制的原理及关键计算机制,同时也抽象出其本质思想,并介绍了注意力模型在图像及语音等领域的典型应用场景。 注意力模型最近几年在深度学习各个领域被广泛使...转载 2018-07-18 22:23:30 · 3390 阅读 · 2 评论 -
Python自然语言处理实战(1):NLP基础
从建模的角度看,为了方便计算机处理,自然语言可以被定义为一组规则或符号的集合,我们组合集合中的符号来传递各种信息。自然语言处理研究表示语言能力、语言应用的模型,通过建立计算机框架来实现这样的语言模型,并且不断完善这样的语言模型,还需要根据语言模型来设计各种实用的系统,并且探讨这些实用技术的评测技术。从自然语言的角度出发,NLP基本可以分为两个部分:自然语言处理以及自然语言的生成,演化为...原创 2018-07-14 20:24:23 · 8349 阅读 · 0 评论 -
Python自然语言处理实战(3):中文分词技术
3.1、中文分词简介 在英文中,单词本身就是“词”的表达,一篇英文文章就是“单词”加分隔符(空格)来表示的,而在汉语中,词以字为基本单位的,但是一篇文章的语义表达却仍然是以词来划分的。 自中文自动分词被提出以来,历经将近30年的探索,提出了很多方法,可主要归纳为“规则分词”、“统计分词”和“混合分词”这三个主要流派。3.2、规则分词 基于规则的分词是一种机械分词方法...原创 2018-07-15 17:49:18 · 5688 阅读 · 2 评论 -
基于深度学习的依存句法分析进展
http://www.cipsc.org.cn/qngw/?p=885前言:中国中文信息学会青年工作委员会(简称青工委)是中国中文信息学会的下属学术组织,专门面向全国自然语言处理领域的青年学者和学生开展工作,在青年学者与学生中拥有较大影响力。近年来,在大数据和深度学习的推动下,自然语言处理技术发展迅速。为了增进国内对自然语言处理前沿动态的了解,青工委在微信公众号推出“青工委学术前沿专栏”,...转载 2018-12-28 11:28:01 · 4178 阅读 · 0 评论 -
基于深度学习的关系抽取
http://www.cipsc.org.cn/qngw/?p=890题目:基于深度学习的关系抽取(PDF)作者:林衍凯、刘知远(清华大学)————————————————————-【引言】信息抽取旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息。关系抽取是其中的重要子任务之一,主要目的是从文本中识别实体并抽取实体之间的语义关系。例如,句子“Bill Gates is ...转载 2018-12-28 11:29:05 · 4985 阅读 · 0 评论 -
Python自然语言处理 10 分析语句的含义
既然已经有了分析机制和基于特征的文法,那么能否做一些类似分析语句的含义的事情?回答下列问题:(1)如何表示自然语言的含义,并能通过计算机进行处理?(2)怎样才能将意思表示与无限制的语句集相关联?(3)怎样才能通过连接意思表示与句子的程序来存储信息?本章介绍一些逻辑语义方面的规范化技术,看看如何使用它们来查询存储有客观整理的数据库一 自然语言理解#查询数据库目前为止在原创 2017-12-01 21:04:06 · 2699 阅读 · 0 评论 -
【NLP】彻底搞懂BERT
原文自google在2018年10月底公布BERT在11项nlp任务中的卓越表现后,BERT(Bidirectional Encoder Representation from Transformers)就成为NLP领域大火、整个ML界略有耳闻的模型,网上相关介绍也很多,但很多技术内容太少,或是写的不全面半懂不懂,重复内容占绝大多数(这里弱弱吐槽百度的搜索结果多样化。。)一句话概括,BER...转载 2019-08-22 11:39:13 · 882 阅读 · 0 评论 -
文本分类算法综述与代码实现
大部分文本分类系统包含特征抽取、降维、分类器和评估四部分,本文围绕这个分类系统进行探讨。 输入: 特征抽取:使用TF-IDF,Word2Vec向量化 分类器:分类算法 评估:预测测试集和评估模型,F Score、ROC以及AUC等目前采用的几种特征抽取方法没有考虑句法结构信息,例如下图中的指示代词CNNHAN...原创 2019-05-16 11:13:33 · 1260 阅读 · 0 评论 -
神经网络机器翻译实现---Seq2Seq+注意力机制
1、NMT(Neural Machine Translation)简介NMT框架可以简单地表示为如下图:输入句子经过编码得到上下文向量context,context再经过译码得到输出句子可具体表示为论文Sequence to Sequence Learning with Neural Networks称这个框架为序列到序列(sequence-to-sequence)th...原创 2019-05-15 17:49:43 · 959 阅读 · 0 评论 -
如何轻松愉快地理解条件随机场(CRF)?
原文理解条件随机场最好的办法就是用一个现实的例子来说明它。但是目前中文的条件随机场文章鲜有这样干的,可能写文章的人都是大牛,不屑于举例子吧。于是乎,我翻译了这篇文章。希望对其他伙伴有所帮助。原文在这里[http://blog.echen.me/2012/01/03/introduction-to-conditional-random-fields/]想直接看英文的朋友可以直接点进去了。我...转载 2019-02-18 11:04:50 · 298 阅读 · 0 评论 -
自然语言句法分析标注解释
来自:http://www.surdeanu.info/mihai/teaching/ista555-fall13/readings/PennTreebankConstituents.html#Function从句级别的符号说明:(5个)S - simple declarative clause, i.e. one that is not introduced by a (possible...转载 2019-02-15 17:26:17 · 769 阅读 · 0 评论 -
PCFG parser及实现
原文源代码点击下载背景介绍:PCFG是ProbabilisticContext Free Grammar的简写,是Chomsky范式中的2型文法。句法分析就是解析出句子的词之间的结构关系,对于什么是句法分析,我们并不陌生,因为我们从上小学开始就经过了句法分析的“严酷”训练,回想一下,语文老师教我们怎么解析一个句子的主谓宾定状补。为了便于科学描述和交流,把一个句法表示成四元组: ...转载 2019-01-29 18:23:25 · 915 阅读 · 0 评论 -
PCFG CKY实现--python版本
class PCFG(object): def __init__(self, non_ternimal, terminal, rules_prob, start_prob): self.non_terminal = non_ternimal self.terminal = terminal self.rules_prob = rules_p...转载 2019-01-29 14:59:14 · 2621 阅读 · 1 评论 -
CYK算法简介与实现
原文摘要CYK算法是一个基于“动态规划”算法设计思想,用于测试串w对于一个上下文无关文法L的成员性的一个算法。CYK算法可以在O(n3)O(n3)的时间内得出结果。CYK算法是由三个独立发现同样思想本质的人(J. Cocke、 D. Younger和T. Kasami)来命名的。这篇博客将主要介绍乔姆斯基范式、CYK算法的流程以及其代码实现。1. 乔姆斯基范式任何一个非空且不含ϵ的上下...转载 2019-01-29 14:55:56 · 2989 阅读 · 0 评论 -
基于keras的BiLstm与CRF实现命名实体标注
https://www.cnblogs.com/vipyoumay/p/ner-chinese-keras.html众所周知,通过Bilstm已经可以实现分词或命名实体标注了,同样地单独的CRF也可以很好的实现。既然LSTM都已经可以预测了,为啥要搞一个LSTM+CRF的hybrid model? 因为单独LSTM预测出来的标注可能会出现(I-Organization->I-Person...转载 2019-01-29 14:41:53 · 858 阅读 · 0 评论 -
Stanford-corenlp 英文词性标注
一、环境配置1.下载官网的NLP相关包将下载下来的stanford-corenlp-full-2018-02-27解压并将下载英文的jar文件stanford-english-corenlp-2018-02-27-models.jar放到该目录下。网址:https://stanfordnlp.github.io/CoreNLP/index.html2.确保电脑里要已经安装jav...转载 2019-01-28 11:57:21 · 3104 阅读 · 1 评论 -
Transformer源码解读
原文转载请注明出处之前我们一起了解了attention、transformer的原理,本文将会基于github的一个 transformer (下文会针对我对该代码的一个改版讲解)开源代码进行代码分析讲解,该代码相比于Google提供的tensor2tensor/transformer代码更简单,也更容易理解。这里简单说一下代码怎么运行:下载数据集 IWSLT 2016 Germa...转载 2019-01-26 16:11:39 · 1525 阅读 · 0 评论 -
Transformer模型详解
原文转载 2019-01-26 16:09:27 · 815 阅读 · 0 评论 -
Python NLTK结合stanford NLP工具包进行文本处理
https://www.cnblogs.com/baiboy/p/nltk1.html1 NLTK和StandfordNLP简介NLTK:由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开数据集、模型上提供了全面、易用的接口,涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity R...转载 2019-01-23 18:39:11 · 911 阅读 · 1 评论 -
如何和用keras和tensorflow构建企业级NER
如何和用keras和tensorflow构建企业级NER应用最新的深度学习方法来满足工业的需求图片来源:pexels几年前,当我在一家初创公司做软件工程实习生的时候,我在一份发布网络应用程序的工作中看到了一个新特性。这个应用程序能够识别和解析简历中的重要信息,比如电子邮件地址、电话号码、学位信息等等。我开始与我们的团队讨论可能的方法,我们决定用python构建一个基于规则的解析器,...转载 2019-01-02 11:44:31 · 677 阅读 · 0 评论