
NLP
文章平均质量分 94
zxhohai
学生党,学习提升ing
展开
-
表示学习(Representation Learning)之局部表示(Local Representation)与分布式表示(Distributed Representation)
一个良好的表示是内容充分高效表达的基础,作为沟通计算机与现实世界的桥梁,计算机行业人员每时每刻都在研究事物的表示。比如:编程语言,早期的机器语言和现在的高级程序语言可以看作是指令的两种不同表示方式,从可读性方面评价,两者的表达能力相差甚远。再比如:数据结构,其研究的正是数据在计算机中的高效表达与存储,如下图所示,我们可以采用链表和红黑树两种不同的数据结构对有序表进行存储。在对有序表进...原创 2019-03-25 23:10:50 · 6313 阅读 · 1 评论 -
主题模型(3)——PLSA模型及其EM算法求解
之前整理过两篇关于主题模型的博客《文本建模之Unigram Model,PLSA与LDA》和《再看LDA主题模型》,主要是整理了主题模型的由来和推导过程,关于模型参数怎么计算没有过多涉及,因此接下来将分两篇博客,分别整理PLSA模型和EM算法求解,LDA模型和Gibbs Sample求解。PLSA首先回顾下PLSA,作为生成模型,其在文本生成过程中,引入主题的概念,即先从KKK个主题中选定一个...原创 2019-03-01 22:01:02 · 2508 阅读 · 0 评论 -
再看LDA主题模型
之前学习文本挖掘时已经写过一篇关于主题模型的博客《文本建模之Unigram Model,PLSA与LDA》,前几天小组讨论主题模型时,又重新理解了一遍LDA,有了更深刻的认识,特记录一下。1、Unigram ModelUnigram model是最简单的文本模型,其直接将文本的生成过程看作是从一个词汇表中重复取词的过程。因此只要知道每个词的产生概率,就能计算出一篇文档的产生概率。假设一篇文档由...原创 2018-11-13 21:13:14 · 1010 阅读 · 0 评论 -
CNCC 2018技术论坛——知识图谱赋能数字经济
本周五报名参加了在杭州举办的CNCC 2018大会,听取了关于知识图谱的技术论坛——知识图谱赋能数字经济。共有6位专家讲者带来了精彩的主题报告,以及一个小时的Panel环节。本博客将整理总结分享专家的报告,共大家参考。1、周傲英:数据是催生数字经济的新动能——兼谈知识图谱的作用数字经济是什么?新动能是什么?数字经济最早在20年前提出,代表的是数字化,2016年G20峰会上,数字经济被再次提出...原创 2018-10-27 22:38:54 · 1794 阅读 · 0 评论 -
自动文摘(Automatic document summarization)方法综述(四)——基于神经网络的(neural summarization)方法
前三篇博客(一)、(二)、(三)总结了抽取式自动文摘的一些经典方法,传统抽取式自动文摘方法将文档简单地看作是一组文本单元(短语、句子等)的集合,忽略了文档所表达的全局语义,难免“断章取义”。随着算力的提升,深度学习在很多应用中非常的火热也取得了state-of-the-art的性能,因此,将神经网络模型引入自动文摘任务是理所当然的,将文档用神经网络模型进行表示被称为神经文档模型(neural do...原创 2018-10-31 22:21:45 · 4643 阅读 · 2 评论 -
自动文摘(Automatic document summarization)方法综述(三)——基于次模函数(submodular function)最大化的方法
自动文摘(Automatic document summarization)方法综述的第一篇文章(一)总结了基于中心的(Centroid-based)方法和基于图的(graph-based)方法,第二篇文章(二)总结了基于最优化的(optimization-based)的方法。这篇博客将依旧整理基于最优化方法选取文本单元的方法,更确切的说,这篇博客将聚焦在次模函数(submodular funct...原创 2018-10-04 21:05:49 · 13632 阅读 · 0 评论 -
word2vec之CBOW模型与skip-gram模型
在对自然语言进行处理时,首先需要面对文本单元表示问题。单词(words)作为常考虑的最小文本单元,因而,如何将单词表示成恰当的词向量(word vector)成为了研究者们研究的重点。最简单直观的方法是one-hot representation,也称1-of-N representation,这种方式将每个单词表示成一个词汇表(vocabulary)大小的向量,其中绝大部分元素都是0,只有一个维...原创 2018-10-11 22:40:06 · 3795 阅读 · 0 评论 -
自动文摘(Automatic document summarization)方法综述(二)——基于最优化的(optimization-based)方法
在上一篇博客中,我总结了基于中心(centroid-based)的方法和基于图(graph-based)方法。这两类方法的重心都集中在给文本单元打分上,也就是判断文本单元对原始文档的覆盖度(coverage)或者说文本单元与文档主题的相关度(relevance),进而得到文本单元的重要性权重。这只考虑了自动文摘的第一个要素,没有考虑文本单元之间的相似度可能带来的冗余。一般来说,生成一份高质量的自动...原创 2018-08-21 15:40:14 · 2584 阅读 · 0 评论 -
自动文摘(Automatic document summarization)方法综述(一)——基于中心的(Centroid-based)与基于图的(graph-based)方法
从Luhn1958年发表第一遍自动文摘论文开始,自动文摘(Automatic document summarization)一直是自然语言处理中最为活跃的分支。自动文摘希望通过计算机自动将冗长的文本压缩到规定长度内,同时保持原始文本主要信息不丢失。在信息爆炸的互联网时代,每时每刻互联网上都在积累更多的文本;而移动互联网的到来,对信息的呈现方式也提出了更高的要求,因此自动文摘的重要性和迫切需求更为凸...原创 2018-08-12 15:07:07 · 4614 阅读 · 2 评论 -
形式语言与自动机及其在NLP中的应用
摘要: 形式语言与自动机是计算机科学的理论基础,对于计算机科学与技术专业人才的计算思维能力培养极其重要。本文首先从Chomsky谱系出发,对形式语言的概念和类别进行了阐述,然后按照形式文法与自动机之间的对应关系,介绍了四种自动机。最后通过单词拼写检查例子展现了形式语言与自动机在自然语言处理中的应用。引言自动机和形式语言是计算机科学的理论基础,它在信息科学,生物学,管理学等众多学科领域中...原创 2018-04-28 14:56:41 · 8619 阅读 · 2 评论 -
SenticNet情感词典介绍
在进行情感分析时,一个好的情感词典能够让我们的工作事半功倍,较为出名的情感词典有SentiWordNet,General Inquirer等,这篇博客将介绍另外一个出色情感词典,SenticNet。简介当谈论SenticNet时,我们正在谈论概念层面的情感分析,即通过语义和语言学来完成极性探测、情感识别等任务,而不是单纯的依靠词共现频率。SenticNet可以看作是以下其中一种: 1...原创 2018-04-13 12:07:19 · 11635 阅读 · 1 评论 -
奇异值分解与LSA潜在语义分析
传统的向量空间模型(Vector Space Model)中,文档被表示成由特征词出现频率(或概率)组成的多维向量,然后计算向量间的相似度。向量空间模型依旧是现在很多文本分析模型的基础,但向量空间模型无法处理一词多义和一义多词问题。Scott Deerwester,Susan T. Dumais等人在1990年提出了LSA(Latent Semantic Analysis,潜在语义分析)又称LSI...原创 2018-04-12 19:40:49 · 6569 阅读 · 6 评论 -
文本建模之Unigram Model,PLSA与LDA
LDA(Latent Dirichlet Allocation)是一个优美的概率图模型,可以用来寻找文本的主题。最近系统的学习了一下这个模型,主要参考了《LDA八卦》和July的博客《通俗理解LDA主题模型》。本文主要对文本建模进行梳理,其中的涉及的数学知识将在另外的博客中讲解。1、Unigram Model1.1、频率学派Unigram Model是最简单的文本模型,认为一篇...原创 2018-03-08 22:14:39 · 3605 阅读 · 0 评论 -
主题模型(4)——LDA模型及其Gibbs Sample求解
之前关于主题模型整理了《文本建模之Unigram Model,PLSA与LDA》与《再看LDA主题模型》两篇博客,以及针对PLSA的求解整理了博客《主题模型(3)——PLSA模型及其EM算法求解》,这一篇博客将继续整理LDA(Latent Dirichlet Allocation)模型的Gibbs Sample求解方法。LDA回顾同样,首先回归下LDA模型的文档生成过程。我们知道,LDA在PL...原创 2019-05-19 16:32:16 · 1543 阅读 · 0 评论