
NLP
gentelyang
呵呵
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
主题模型学习总结
一:主题模型有很多种,现在比较常用的是PLSA和LDA这两种主题模型,还有Unigram model和mixture Unigrams model我将循序渐进的说一下这四种模型: 1:Unigram model思想:这种方法只是根据先验概率去生成文档,首先我们要有一篇已知文档W=(w1,w2,....wn),p(wn)表示单词wn的先验概率,所以生成的文档p(w)=p(w1)***...原创 2017-09-13 13:52:39 · 1147 阅读 · 0 评论 -
n-gram代码实现源码
for i range (len(input)-n+1):这个for循环的长度是len-n+1,举个例子:我爱自然语言处理,当n=2时,len=8;我爱/爱自/自然/然语/语言/言处/处理,总共8-2+1=7个划分结果,“ ”.join(input[i:i+n]这个是将input的每隔n个进行分割,用空格分割,这是精髓这句...原创 2018-04-28 10:29:13 · 9200 阅读 · 2 评论 -
Effective Approaches to Attention-based Neural Machine Translation之每日一篇
论文地址:http://www.cs.cmu.edu/~ark/EMNLP-2015/proceedings/EMNLP/pdf/EMNLP166.pdf概述:本文针对NMT任务是用attention机制提出两种结构,global attention将attention作用于全部输入序列,local attention每个时间步将attention作用于输入序列的不同子集。前者被称为soft at...原创 2018-06-29 16:06:51 · 492 阅读 · 0 评论 -
A Convolutional Neural Network for Modelling Sentences之每日一篇
1.介绍这篇论文介绍了一种DCNN对句子语义建模,模型采用动态K-max pooling取出得分top k的特征值,这里区别一下与max pooling 的区别,能处理不同的句子,不依赖解析树,而word2vec是依赖与huffman树的,词向量方法进行文本分类是依赖解析树的。2.模型的特点1 保留了句子中词序信息和词语之间的相对位置;2 宽卷积的结果是传统卷积的一个扩展,某种意义上,也是n-gr...原创 2018-06-26 10:25:13 · 3958 阅读 · 1 评论 -
Convolutional Neural Networks for Sentence Classification之每日一篇
本文很久以前就读过,现在再学习一下。文章链接:http://blog.youkuaiyun.com/rxt2012kc/article/details/73739756github连接:https://github.com/rxt2012kc/cnn-text-classification-tf (论文原文github实现) https://github.com/gent...原创 2018-06-27 11:44:16 · 2462 阅读 · 0 评论 -
文本分类之深度学习应用总结
总览本教程分为五个部分,分别是:词嵌入(Word Embeddings) + 卷积神经网络(CNN,Convolutional Neural Network) = 文本分类使用一个单层 CNN 架构调整 CNN 超参数考虑字符级的 CNN考虑用更深层的 CNN 进行分类1.词嵌入 + CNN = 文本分类文本分类的操作方法包括:使用词嵌入来表示单词,使用卷积神经网络(CNN)来学习如何辨别分类问题...转载 2018-06-27 14:46:57 · 3571 阅读 · 0 评论 -
A Sensitivity Analysis of Convolutional Neural Networks for Sentence Classification之每日一篇
论文Convolutional neural networks for sentence classification,这篇文章已经介绍过了,它介绍了如何使用CNN做句子分类(文本分类);而本文主要介绍了用CNN做句子分类的时的一些经验,如何调节超参。超参数包括:词向量,Region size大小,feature map的数量,激活函,pooling,正则化的影响。模型图:词向量:词向量的表示形式...原创 2018-06-27 15:29:18 · 426 阅读 · 0 评论 -
Character-level Convolutional Networks for Text Classification之每日一篇
这篇文章发表于2016.04,作者还发表了一篇Text Unders tanding from Scratch的论文,有兴趣的可以去看看。1:Character quantization构建字母表,包含70种字符。The alphabet used in all of our models consists of 70 characters, including 26 english letter...原创 2018-06-27 19:58:41 · 2597 阅读 · 1 评论 -
Very Deep Convolutional Networks for Text Classification之每日一篇
一:介绍这篇文章是2017.1月发表,在这篇文章出现之前,卷积神经网络进行文本分类都是用的很浅层的CNN,基本是一个词嵌入层、一个卷积一个池化然后两个全连接层,文章利用了29个卷积层,提升文本分类的准去率。这篇文章是首创式的用将深度较深的CNN应用在NLP中。二:VDCNN结构模型介绍:此模型由8个卷积层block,3个最大池化层,一个k-max pooling 和3个全连接层组成。卷积层的通道数...原创 2018-06-28 10:28:02 · 2700 阅读 · 0 评论 -
短文本分类的 ResLCNN 模型
收稿时间: 2017-06-30; 采用时间: 2017-10-20Journal of Software在 He 等人研究中,34 层的 CNN 比 18 层的 CNN 效果差.同样,在 Donahue 等人研究中也提到,双层的 LSTM 模型效果是最好的,多层的 LSTM 效果出现退化现象.为解决此退化问题,He 等人[8]提出了残差网络.受此启发,为了提高模型性能。ResLCNN模型以wor...原创 2018-06-28 11:34:16 · 3581 阅读 · 1 评论 -
Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation之每日一篇
真正提出 Seq2Seq 的文章是《Sequence to Sequence Learning with Neural Networks》,但本篇《Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation》比前者更早使用了 Seq2Seq 模型来解决机器翻译的问题。摘要...原创 2018-06-29 09:40:02 · 6951 阅读 · 0 评论 -
语料库汇总
1 语言资源2 搜狗实验室(Sogou Labs)3 Acollection of Chinese corpora and frequency lists4 Corpus-basedLanguage StudyTheLancaster Los Angeles Spoken Chinese Corpus5 http://lingcorpus.iis.sinica.edu.tw/c...原创 2019-03-09 10:12:36 · 4465 阅读 · 0 评论 -
fasttext原理复习与代码实现
一:fasttext原理https://blog.youkuaiyun.com/sinat_33741547/article/details/78784234fastText简而言之,就是把文档中所有词通过lookup table变成向量,取平均后直接用线性分类器得到分类结果。fastText和ACL-15上的deep averaging network [1] (DAN,如下图)非常相似,区别就是去...原创 2018-05-11 17:29:47 · 3094 阅读 · 0 评论 -
Attention-based LSTM for Aspect-level Sentiment Classification论文阅读笔记
一、aspect level情感分析给定一个句子和句子中出现的某个aspect,aspect-level 情感分析的目标是分析出这个句子在给定aspect上的情感倾向。例如:great food but the service was dreadful! ...原创 2018-05-11 09:58:06 · 5422 阅读 · 3 评论 -
word2vec的学习心得及glove介绍
词向量的表示方法有很多中,比如用语料库、one-hot、词典、bag of words、TF-IDF、n-gram等等,这些都可以将一个词表示成词向量,但是它们有一个问题就是它们只是单纯的把词用向量表示出来,但没有利用到词和词之间的关系,比如猫用[0,0,1,...,0]狗用[0,1,....0]表示,没有注意到猫和狗之间的关系它们都是动物,所以我现在看一下能从其他周围的向量根据关系来预测向量的模...原创 2017-09-13 17:30:57 · 1064 阅读 · 0 评论 -
NLP中jieba分词的用法(一)
一:首先介绍一下分词工具,其中用的比较多的分词工具有:结巴中文分词http://209.222.69.242:9000/中科院分词系统http://ictclas.org/ictclas_demo.htmlsmallseghttps://smallseg.appspot.com/smallsegsnailseghttps://snailsegdemo.appspot.com/原创 2017-09-12 15:10:35 · 3681 阅读 · 0 评论 -
NLP中关键词的提取
一:关键词提取的方法有多种,分别如下:TF-IDF、主题模型、TestRank、rake二:首先来说一下TF-IDF:TF是词频,IDF是逆向文件频率,IDF起到给词赋予权重的作用。TF-IDF的思想:重要的词一定在文章中出现多次,但同时在各个文章中出现多次的词一定没有在只在同一篇文章中出现多次的词的重要性大。此方法类似统计方法,下面把计算方法列举出来:TF=某个词原创 2017-09-12 17:25:22 · 7325 阅读 · 0 评论 -
NLP中的词性标注方法
一:词性标注就是依据句子的上下文给每个词确定一个最最合适的词性。先来看一个用jieba实现的简单词性标注的例子import jieba.posseg as psegwords = pseg.cut("我是一只小喵")for word, flag in words: print('%s %s' % (word, flag))我 r是 v一只 m小喵 n如上就是里利用jieba中的poss...原创 2017-09-12 20:06:58 · 10483 阅读 · 1 评论 -
NLP中的并行分词方法
目前并行分词只能在linux系统下支持,并行分词能显著提高我们的分词速度,在数据量很大时效果尤其明显,下面给出我在一篇作文中进行并行分词和常规分词的时间的比较#encoding=utf-8import sysimport timeimport jiebajieba.enable_parallel()content = open(u'/home/yang/下载/zuowen.原创 2017-09-12 20:21:04 · 883 阅读 · 1 评论 -
NLP中从NB到n-gram
一:朴素贝叶斯是一种很古老的方法,朴素贝叶斯的基础太简单,我这里直接开始从经典NB的垃圾邮件分类问题开始说起。p("垃圾邮件"|"具有某特征")是否大于1/2。p("垃圾邮件“|”我司可办理正规发票,17%增值税发票点数优惠“)时由于一句话的可能是无限的,每个人的理解都可能不应样,所以这里我们利用了分词将上面的变为:P(“垃圾邮件”|“我”,“司”,.....................原创 2017-09-12 21:22:43 · 470 阅读 · 0 评论 -
NLP之文本分类方法之基础知识
一:文本分类的处理大致分为文本预处理、文本特征提取、分类模型构建等。和英文文本处理分类相比,中文文本的预处理是关键技术。1:文本预处理(解决特征空间高维性、语义相关性和特征分布稀疏)1.1中文分词技术为什么分词处理?因为研究表明特征粒度为词粒度远远好于字粒度,其大部分分类算法不考虑词序信息,基于字粒度的损失了过多的n-gram信息。中文分词主要分为两类方法:基于词典的中文分词和原创 2018-01-05 15:39:17 · 5030 阅读 · 0 评论 -
长短时记忆网络(LSTM)
在文本分类中,CNN由于主要提取的是局部特征而忽略了global特征,这容易造成一次多义的现象,进而对文本分类的精度产生一定的影响,而LSTM是RNN的一种变形,其处理的输入是序列化的输入,RNN由于容易更长久的记忆能力,容易造成梯度消失,所以可以利用lstm模型来防止序列化输入在传输时造成的梯度消失现象。利用BPTT算法来优化参数。 由于RNN能学习任意时间长度序列的输入,但随着输入的增...原创 2018-01-29 15:46:14 · 6941 阅读 · 0 评论 -
利用BiLSTM网络实现文本分类
这里数据的Preprocess过程不贴代码了,训练过程(train)也不贴了,只是记录一下BiLSTM网络实现代码:这里隐层数为2,词向量为100维。import tensorflow as tffrom tensorflow.contrib import rnnclass Model(object): def __init__(self, num_layers原创 2018-01-29 15:54:02 · 8906 阅读 · 2 评论 -
利用卷积神经网络(cnn)实现文本分类
卷积神经网络在情感分析中取得了很好的成果,相比于之前浅层的机器学习方法如NB、SVM效果更好,特别实在数据集较大的情况下,并且CNN不用我们手动去提取特征,原浅层ML是需要进行文本特征提取、文本特征表示、归一化、最后进行文本分类,文本特征提取主要可以分为四步:(1):对全部训练文档进行分词,由这些词作为向量的维数来表示文本;(2):统计每一类文档中所有出现的词语及其频率,然后过滤,剔除停用词和单字...原创 2018-01-09 11:41:20 · 28917 阅读 · 16 评论 -
Aspect Level Sentiment Classification with Deep Memory Network论文学习笔记
一:关于aspect level 的情感分析给定一个句子和句子中出现的某个aspect,aspect-level 情感分析的目标是分析出这个句子在给定aspect上的情感倾向。例如:great food but the service was dreadful! ...原创 2018-05-10 20:25:51 · 2787 阅读 · 0 评论 -
自然语言处理小知识点
构建平行语料库的流程方法语料的采集:在进行语料采集时,需要考虑两点因素:一是原始语料本身的质量,二是语料库的应用目标。语料的质量主要是语言质量、翻译质量及语料保存的规范性而言。如何建立语料库建立单语语料库比较简单,只需要准备好相关语料(古代汉语/现代汉语/英文/其它语言),将语料导入到AntConc软件进行检索即可。建立双语语料库,需要准备双语对照(中英对照)的原文和译文,...原创 2019-03-09 19:05:30 · 899 阅读 · 0 评论