
NLP
文章平均质量分 86
miner_zhu
这个作者很懒,什么都没留下…
展开
-
NLP之jieba中文分词官方文档
jieba“结巴”中文分词:做最好的 Python 中文分词组件特点支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 MIT 授权协议在线演示...翻译 2018-08-01 14:52:36 · 1372 阅读 · 0 评论 -
NLP之文章摘要
文本自动文摘(automatic summarization/abstracting)是利用计算机自动实现文本分析、内容归纳和摘要自动生成的技术。按照不同的标准自动文摘可以划分为不同的类型。如果根据文摘的功能划分,可以分为指示型文摘(indicative)、报道型文摘(informative)和评论型文摘(evaluative)。根据输入文本的数量划分,自动文摘可以分为单文档摘要和多文档摘...原创 2018-09-27 10:48:13 · 3580 阅读 · 3 评论 -
NLP之人机对话系统
人机对话系统人机对话系统又称口语对话系统(spoken dialogue system)。一个典型的人机对话系统主要包括如下6个技术模块:①语音识别器(speech recognizer);②语言解析器(language parser);③问题求解(problem resolving)模块;④语言生成器(language generator);⑤对话管理(dialogue management...原创 2018-10-11 22:15:32 · 10078 阅读 · 0 评论 -
NLP之汉语自动分词
汉语自动分词就是让计算机识别出汉语文本中的‘词’,在词与词之间自动加上空格或其他边界标记。目录一.汉语自动分词中的基本问题1.1分词规范问题2.2歧义切分问题3.未登录词问题二.汉语分词方法1.N-最短路径方法2.基于词的n元语法模型的分词方法3.由字构词的汉语分词方法4.基于词感知机算法的汉语分词方法5.基于字的生成式模型和区分式模型相结合的汉语分词方...原创 2018-09-21 21:47:45 · 6766 阅读 · 0 评论 -
NLP之情感信息抽取
情感信息抽取是一种关于细粒度文本的情感分析技术,旨在抽取情感文本中有价值的情感信息。Liu(2007)将情感信息定义为一个5元组(O,F,SO,H,T),其中,O表示评论实体,F表示评价对象,SO表示评价词语,H表示观点持有者,T表示评价的时间。情感信息抽取研究的主要问题集中在两个方面:抽取观点持有者(opinion holder)和抽取评价对象(opinion target)。*抽...原创 2018-09-27 15:26:42 · 6311 阅读 · 2 评论 -
NLP之CRF++安装及使用
目录 一、CRF简介CRF VS 词典统计分词CRF VS HMM,MEMMCRF分词原理二、CRF++工具包CRF++的安装(linux)CRF++的使用一、CRF简介Conditional Random Field:条件随机场,一种机器学习技术(模型)CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注...原创 2018-10-18 21:03:03 · 14098 阅读 · 0 评论 -
正则之PCRE库
目录 什么是PCRE库?1.PCRE库简介2.PCRE正则基础知识PCRE库的安装(linux)PCRE库的使用1.PCRE库的函数接口2.PCRE使用过程3.PCRE实例参考文章什么是PCRE库?1.PCRE库简介PCRE(Perl Compatible Regular Expressions):perl语言兼容正则表达式。PCRE是一个用C语...原创 2018-10-19 21:20:47 · 3206 阅读 · 0 评论 -
NLP之jieba分词原理简析
一、jieba介绍jieba库是一个简单实用的中文自然语言处理分词库。jieba分词属于概率语言模型分词。概率语言模型分词的任务是:在全切分所得的所有结果中求某个切分方案S,使得P(S)最大。jieba支持三种分词模式:全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 精确模式,试图将句子最精确地切开,适合文本分析; 搜索引擎模式,在精确模式的基...原创 2018-10-21 22:56:09 · 20527 阅读 · 0 评论 -
trie树(前缀树)
Trie 树, 又称字典树,单词查找树。它来源于retrieval(检索)中取中间四个字符构成(读音同try)。用于存储大量的字符串以便支持快速模式匹配。主要应用在信息检索领域。Trie 有三种结构: 标准trie (standard trie)、压缩trie、后缀trie(suffix trie) 。这里只将前两种。1. 标准Trie (standard trie)标准 Trie树的...转载 2018-11-13 10:39:30 · 1255 阅读 · 0 评论 -
微软亚研院:NLP趋势展望
趋势热点:值得关注的 NLP 技术从最近的 NLP 研究中,我们认为有一些技术发展趋势值得关注,这里总结了五个方面:热点一,预训练神经网络如何学习更好的预训练的表示,在一段时间内继续成为研究的热点。通过类似于语言模型的方式来学习词的表示,其用于具体任务的范式得到了广泛应用。这几乎成为自然语言处理的标配。这个范式的一个不足是词表示缺少上下文,对上下文进行建模依然完全依赖于有限的标注数...转载 2018-12-21 16:25:54 · 679 阅读 · 0 评论 -
特征提取方法简介
one-hot 表示一个词bag-of-words 表示一段文本tf-idf 用频率的手段来表征词语的重要性text-rank 借鉴page-rank来表征词语的权重从基于SVD纯数学分解词文档矩阵的LSA,到pLSA中用概率手段来表征文档形成过程并将词文档矩阵的求解结果赋予概率含义,再到LDA中引入两个共轭分布从而完美引入先验1. one-hot1.1 one-hot编码 ...转载 2018-12-18 10:48:03 · 15385 阅读 · 0 评论 -
BiLSTM介绍及中文命名实体识别应用
What-什么是LSTM和BiLSTM?LSTM:全称Long Short-Term Memory,是RNN(Recurrent Neural Network)的一种。LSTM由于其设计的特点,非常适合用于对时序数据的建模,如文本数据。BiLSTM:Bi-directional Long Short-Term Memory的缩写,是由前向LSTM与后向LSTM组合而成。可以看出其很适合...原创 2019-01-04 11:36:48 · 30143 阅读 · 1 评论 -
命名实体识别(NER)的发展历程
命名实体识别(Named Entity Recognition,NER)简单说就是从一段自然语言文本中找出相关实体,并标注出其位置以及类型。一般我们归为序列标注问题(sequence labeling problem)中的一种。与分类问题相比,序列标注问题中当前的预测标签不仅与当前的输入特征相关,还与之前的预测标签相关,即预测标签序列之间是有强相互依赖关系的。例如,使用BIO标签进行NER时,正确...转载 2019-01-04 15:39:44 · 7021 阅读 · 0 评论 -
NLP情感分析之情感分类
情感分析与情感分类情感分析(sentiment analysis)是近年来国内外研究的热点,其任务是帮助用户快速获取、整理和分析相关评价信息,对带有情感色彩的主观性文本进行分析、处理、归纳和推理。情感分析包含较多的任务,如情感分类(sentiment classification)、观点抽取(opinion extraction)、观点问答和观点摘要等。因此很难简单地将其划归为某一个领域,...原创 2018-09-26 15:38:35 · 32750 阅读 · 3 评论 -
NLP之文本分类
文本自动分类简称文本分类(text categorization),是模式识别与自然语言处理密切结合的研究课题。传统的文本分类是基于文本内容的,研究如何将文本自动划分成政治的、经济的、军事的、体育的、娱乐的等各种类型。目录文本表示文本向量化向量的相似性度量(similarity)文本特征选择方法特征权重计算方法分类器设计文本分类评测指标文本分类是在预定义的分类体...原创 2018-09-26 15:08:07 · 20634 阅读 · 1 评论 -
NLP之中文命名实体识别(Named EntitiesRecognition--NER)
一、什么是命名实体识别命名实体识别是识别一个句子中有特定意义的实体并将其区分为人名,机构名,日期,地名,时间等类别的工作。命名实体识别本质上是一个模式识别任务, 即给定一个句子, 识别句子中实体的边界和实体的类型。是自然语言处理任务中一项重要且基础性的工作。二、实体关系抽取实体和实体之间存在着语义关系, 当两个实体出现在同一个句子里时, 上下文环境就决定了两个实体间的语义关系。...翻译 2018-08-02 22:11:12 · 8968 阅读 · 0 评论 -
NLP之文本相似度
相似度相似度度量(从字面上和语义上两方面来度量):计算个体间相似程度(得到一个分数,通过分数来度量相似度,范围[0,1]) -文本角度(TF-IDF、LCS):这件衣服真好看,这件衣服真难看 -语义角度(协同过滤):真好玩,真有趣 -文本+语义角度(word2vec)余弦相似度先介绍文本相似中最常用最简单的方法:余弦相似度。 – 一个向量空间中两个向...原创 2018-08-13 11:12:22 · 5974 阅读 · 0 评论 -
NLP之自然语言处理简述
什么是自然语言处理?自然语言处理是研究在人与人交际中以及人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。根据这个定义,自...原创 2018-09-15 17:04:06 · 11346 阅读 · 0 评论 -
NLP之语言模型
语言模型(language model, LM)在自然语言处理中占有重要的地位,尤其在基于统计模型的语音识别、机器翻译、汉语自动分词和句法分析等相关研究中得到了广泛应用。目前主要采用的是n元语法模型(n-gram model),这种模型构建简单、直接,但同时也因为数据缺乏而必须采取平滑(smoothing)算法。接下来主要介绍n元语法的基本概念和几种常用的数据平滑方法。目录n元语法...原创 2018-09-16 21:41:56 · 13671 阅读 · 2 评论 -
NLP之概率图模型
概率图模型概率图模型(probabilistic graphical models)在概率模型的基础上,使用了基于图的方法来表示概率分布(或者概率密度、密度函数),是一种通用化的不确定性知识表示和处理方法。在概率图模型的表达中,结点表示变量,结点之间直接相连的边表示相应变量之间的概率关系。当概率分布P被表示成概率图模型之后,可以用来回答与概率分布P有关的问题,如计算条件概率P(Y|E=e):在...原创 2018-09-18 16:54:51 · 1380 阅读 · 0 评论 -
《统计自然语言处理》知识结构总结
一、自然语言处理概述 1)自然语言处理:利用计算机为工具,对书面实行或者口头形式进行各种各样的处理和加工的技术,是研究人与人交际中以及人与计算机交际中的演员问题的一门学科,是人工智能的主要内容。 2)自然语言处理是研究语言能力和语言应用的模型,建立计算机(算法)框架来实现这样的语言模型,并完善、评测、最终用于设计各种实用系...转载 2018-09-19 16:12:56 · 992 阅读 · 0 评论 -
目前自然语言处理的实际应用方法总结
自然语言处理的方法分词分词的任务定义为:输入一个句子,输出一个词语序列的过程。如将「严守一把手机关了。」输出为「严守一/把/手机/关/了。」目前的两种主流方法包括基于离散特征的 CRF 和 BILSTM-CRF。挑战包括交叉歧义、新词识别、领域移植、多源异构数据融合及多粒度分词等。命名实体现在的主流方法包括:1. 规则系统2. 基于机器学习的学习系统目前的挑战包...转载 2018-09-19 16:22:54 · 5410 阅读 · 0 评论 -
NLP之贝叶斯网络
贝叶斯网络贝叶斯网络又称为信度网络或信念网络(belief networks),是一种基于概率推理的数学模型,其理论基础是贝叶斯公式。贝叶斯网络的概念最初是由Judea Pearl于1985年提出来的,其目的是通过概率推理处理不确定性和不完整性问题。形式上,一个贝叶斯网络就是一个有向无环图(directed acyclic graph, DAG),结点表示随机变量,可以是可观测量、隐含变量...原创 2018-09-19 19:17:44 · 1785 阅读 · 0 评论 -
NLP之隐马尔可夫模型
马尔可夫模型在介绍隐马尔可夫模型之前,先来介绍马尔可夫模型。我们知道,随机过程又称随机函数,是随时间而随机变化的过程。 马尔可夫模型(Markov model)描述了一类重要的随机过程。我们常常需要考察一个随机变量序列,这些随机变量并不是相互独立的,每个随机变量的值依赖于这个序列前面的状态。如果一个系统有N个有限状态S={s1,s2,…,sN},那么随着时间的推移,该系统将从某一状态转移到...原创 2018-09-19 19:19:01 · 2241 阅读 · 0 评论 -
NLP之最大熵模型
最大熵模型的基本原理是:在只掌握关于未知分布的部分信息的情况下,符合已知知识的概率分布可能有多个,但使熵值最大的概率分布最真实地反映了事件的分布情况,因为熵定义了随机变量的不确定性,当熵最大时,随机变量最不确定,最难准确地预测其行为。也就是说,在已知部分信息的前提下,关于未知分布最合理的推断应该是符合已知信息最不确定或最大随机的推断。最大熵模型参数训练的任务就是选取有效的特征fi及其权重λi。...原创 2018-09-19 21:46:41 · 1700 阅读 · 0 评论 -
NLP之条件随机场
条件随机场(conditional random fields, CRFs)由J. Lafferty等人(2001)提出,近几年来在自然语言处理和图像处理等领域中得到了广泛的应用。CRF是用来标注和划分序列结构数据的概率化结构模型。言下之意,就是对于给定的输出标识序列Y和观测序列X,条件随机场通过定义条件概率P(Y|X),而不是联合概率分布P(X,Y)来描述模型。 CRF也可以看作一个无向图模...原创 2018-09-19 22:14:22 · 961 阅读 · 0 评论 -
NLP之中文命名实体识别
在MUC-6中首次使用了命名实体(named entity)这一术语,由于当时关注的焦点是信息抽取(information extraction)问题,即从报章等非结构化文本中抽取关于公司活动和国防相关活动的结构化信息,而人名、地名、组织机构名、时间和数字表达(包括时间、日期、货币量和百分数等)是结构化信息的关键内容。命名实体识别(Named EntitiesRecognition,NER),...原创 2018-09-25 18:45:47 · 52449 阅读 · 2 评论 -
NLP之自然语言处理入门方法
自然语言处理(简称NLP),是研究计算机处理人类语言的一门技术,包括:1.句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧。2.信息抽取:从给定文本中抽取重要的信息,比如,时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来,就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。涉及到实体识别、时间抽...转载 2018-09-15 15:25:10 · 700 阅读 · 0 评论 -
如何产生好的词向量
词向量、词嵌入(word vector,word embedding)也称分布式表示(distributed representation)。如今词向量已经被广泛应用于各自NLP任务中,研究者们也提出了不少产生词向量的模型并开发成实用的工具供大家使用。但在使用这些工具产生词向量时,不同的训练数据,参数,模型等都会对产生的词向量有所影响,那么如何产生好的词向量对于工程来说很重要。词的表示方法...转载 2019-01-04 17:17:24 · 904 阅读 · 1 评论