
NLP
lgy54321
这个作者很懒,什么都没留下…
展开
-
NLP--(1)-(tensorflow)
文章目录TensorflowTensorflow 安装Tensorflow 基础Tensorflow结构Tensorflow 使用图来表示计算任务会话 (Session)变量FetchFeedTensorflowTensorflow 安装1.用Anaconda,使用conda create 创建对应的python环境2.pip install 安装tensorflowtensorflow...原创 2019-03-16 14:58:35 · 152 阅读 · 0 评论 -
python gensim下使用word2vec
用gensim函数库训练Word2Vec模型有很多配置参数。这里对gensim文档的Word2Vec函数的参数说明进行翻译。class gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5, min_count=5, max_vocab_size=None, sample=0.001,seed=1...原创 2019-07-05 09:32:38 · 300 阅读 · 0 评论 -
优化器算法(optimizer)详解
文章目录梯度下降的理解一.优化器算法简述1.Batch Gradient Descent (BGD)2.Stochastic Gradient Descent (SGD)3.Mini-Batch Gradient Descent (MBGD)[应对挑战 1]4.Momentum5.Nesterov Accelerated Gradient[应对挑战 2]6.Adagrad (Adaptive gr...原创 2019-07-05 11:24:26 · 1460 阅读 · 0 评论 -
损失函数
文章目录一、平方损失函数(最小二乘法, Ordinary Least Squares )均方误差ESM均方误差+Sigmoid激活函数:输出层神经元学习率缓慢Sigmoid激活函数:ESM均方误差+Sigmoid激活函数二.交叉熵损失交叉损失的定义1.soft max分类器2.交叉熵损失损失函数(loss function)是用来估量模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函...原创 2019-07-05 14:06:10 · 2379 阅读 · 0 评论 -
概率图模型
文章目录概率图有向图 vs. 无向图有向图条件局部独立性无向图概率图在概率图模型中,数据(样本)由公式 G=(V,E) 建模表示:V 表示节点,即随机变量(放在此处的,可以是一个token或者一个label),具体地,用 为随机变量建模,注意 Y 现在是代表了一批随机变量(想象对应一条sequence,包含了很多的token), P(Y) 为这些随机变量的分布;E 表示边,即概率依赖关...转载 2019-07-10 21:27:01 · 571 阅读 · 0 评论 -
判别式与生成式模型
有监督学习回归模型中,我们利用训练集直接对条件概率p(y|x;θ)建模,例如logistic回归就利用hθ(x) = g(θTx)对p(y|x;θ)建模(其中g(z)是sigmoid函数)。假设现在有一个分类问题,要根据一些动物的特征来区分大象(y = 1)和狗(y = 0)。给定这样的一种数据集,回归模型比如logistic回归会试图找到一条直线也就是决策边界,来区分大象与狗这两类,然后对于新...原创 2019-07-10 21:48:19 · 241 阅读 · 0 评论 -
隐马尔科夫模型HMM(一)HMM模型
什么样的问题需要HMM模型首先我们来看看什么样的问题解决可以用HMM模型。使用HMM模型时我们的问题一般有这两个特征:1)我们的问题是基于序列的,比如时间序列,或者状态序列。2)我们的问题中有两类数据,一类序列数据是可以观测到的,即观测序列;而另一类数据是不能观察到的,即隐藏状态序列,简称状态序列。有了这两个特征,那么这个问题一般可以用HMM模型来尝试解决。这样的问题在实际生活中是很多的。比如...原创 2019-07-10 22:21:11 · 549 阅读 · 0 评论 -
隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率
文章目录HMM问题一:求观测序列的概率暴力求解用前向算法求HMM观测序列的概率前向算法。HMM前向算法求解实例HMM问题一:求观测序列的概率首先我们回顾下HMM模型的问题一。这个问题是这样的。我们已知HMM模型的参数λ=(A,B,Π)\lambda = (A, B, \Pi)λ=(A,B,Π)。其中A是隐藏状态转移概率的矩阵,B是观测状态生成概率的矩阵, Π是隐藏状态的初始概率分布。同时我们也...原创 2019-07-10 23:30:10 · 411 阅读 · 0 评论 -
隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数
文章目录HMM模型参数求解概述鲍姆-韦尔奇算法的推导鲍姆-韦尔奇算法流程总结HMM模型参数求解概述HMM模型参数求解根据已知的条件可以分为两种情况。第一种情况较为简单,就是我们已知D个长度为T的观测序列和对应的隐藏状态序列,即{(O1,I1),(O2,I2),...(OD,ID)}\{(O_1, I_1), (O_2, I_2), ...(O_D, I_D)\}{(O1,I1),(O2...转载 2019-07-11 22:11:00 · 667 阅读 · 0 评论 -
隐马尔科夫模型HMM(四)维特比算法解码隐藏状态序列
HMM最可能隐藏状态序列求解概述在HMM模型的解码问题中,给定模型λ=(A,B,Π)和观测序列O={o1,o2,...oT}O =\{o_1,o_2,...o_T\}O={o1,o2,...oT},求给定观测序列O条件下,最可能出现的对应的状态序列I∗={i1∗,i2∗,...iT∗}I^*= \{i_1^*,i_2^*,...i_T^*\}I∗={i1∗,i2∗,...iT∗},即...原创 2019-07-11 22:39:30 · 707 阅读 · 0 评论 -
Attention is all you need(Transform)
文章目录从宏观看Transformer将张量引入图景现在我们开始“编码”从宏观视角看自注意力机制从微观视角看自注意力机制什么是查询向量、键向量和值向量向量?通过矩阵运算实现自注意力机制“大战多头怪”使用位置编码表示序列的顺序残差模块解码组件最终的线性变换和Softmax层训练部分总结损失函数从宏观看Transformer首先将这个模型当成一个黑箱操作。在机器翻译中,就是输入一种语言,输出另一种...原创 2019-07-21 21:32:09 · 483 阅读 · 0 评论 -
条件随机场
文章目录概率无向图模型模型定义概率无向图模型:概率无向图模型的因子分解条件随机场的模型表示linear-chain 条件随机场CRF 的定义CRF 的参数化形式CRF 的简化形式条件随机场的矩阵形式条件随机场的概率计算问题前向-后向算法概率计算期望值的计算条件随机场的训练L-BFGS算法条件随机场的预测算法条件随机场(conditional random field,以下简称CRF) 是给定一组...原创 2019-08-03 09:47:37 · 419 阅读 · 0 评论 -
数据平滑
文章目录数据预处理Add-one (Laplace) smoothingAdd-k smoothingBackoff回退法Interpolation插值法(Jelinek-Mere)Absolute discountingKneser-Ney smoothingModified Kneser-ney smoothing总结在自然语言处理中,经常要计算单词序列(句子)出现的概率估计。但是,算法训练...转载 2019-07-10 11:17:01 · 3065 阅读 · 0 评论 -
熵
文章目录信息熵条件熵相对熵 (Relative entropy),也称KL散度 (Kullback–Leibler divergence)交叉熵总结信息熵一条信息的信息量大小和它的不确定性有直接的关系。我们需要搞清楚一件非常非常不确定的事,或者是我们一无所知的事,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们就不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为...原创 2019-07-10 10:01:53 · 511 阅读 · 0 评论 -
语言模型(词向量)
语言模型语言模型旨在为语句的联合概率函数P(w1,…,wT)建模, 其中wi表示句子中的第i个词。语言模型的目标是,希望模型对有意义的句子赋予大概率,对没意义的句子赋予小概率。 这样的模型可以应用于很多领域,如机器翻译、语音识别、信息检索、词性标注、手写识别等,它们都希望能得到一个连续序列的概率。对语言模型的目标概率P(w1,…,wT),如果假设文本中每个词都是相互独立的,则整句话的联合概率可...原创 2019-07-03 22:25:02 · 2036 阅读 · 0 评论 -
nlp--Day1
文章目录安装Anaconda安装Anacondawindows 10 系统中安装 Anaconda3 的详细过程。Anaconda 官网下载地址:下载安装安装较为简单,基本都是下一步,为了避免不必要的麻烦,最后默认安装路径,具体安装过程为:双击安装文件,启动安装程序如果系统只有一个用户选择默认的第一个即可,如果有多个用户而且都要用到 Anaconda ,则选择第二个选项。为...原创 2019-04-07 15:21:12 · 152 阅读 · 0 评论 -
nlp(实战)--day(3)
文章目录一.基本文本处理1.1分词的概念1.2 最大匹配法1.2.1 正向最大匹配法逆向最大匹配法1.2.3 双向最大匹配法1.3 字、词的统计1.3.1 一句话的统计1.3.2 jieba的统计二语言模型2.1语言模型中unigram、bigram、trigram的概念三 文本矩阵化:要求采用词袋模型且是词级别的矩阵化3.1 分词3.2 停用词3.2.1 取停用词3.2.2 去停用词一.基本文...原创 2019-04-11 22:49:54 · 220 阅读 · 0 评论 -
NLP--day(5)(贝叶斯)
文章目录贝叶斯公式贝叶斯模型描述给定条件目标推理过程算法过程朴素贝叶斯优缺点优点缺点使用数据类型:标称型数据贝叶斯文本分类贝叶斯公式贝叶斯模型描述给定条件假设我们的分类模型样本是:代表有m个样本,每个样本有n个特征,特征输出有K个类别,定义为C1,C2,.....CkC_1,C_2,.....C_kC1,C2,.....Ck目标在以上给定条件后,我们希望贝叶斯模型能通过给定...原创 2019-04-15 18:37:07 · 1281 阅读 · 0 评论 -
NLP--day(4)
文章目录1任务2.IF-IDF原理2.1 IF(词频)2.2逆向文件频率 (inverse document frequency, IDF)2.3IF-IDF例子sklearn进行IF-IDF预处理3. 文本矩阵化,使用词袋模型,以TF-IDF特征值为权重3.1 使用TfidfTransformer3.2 使用CountVectorizer4.互信息的原理4.1 点互信息(PMI)4.2互信息PI...原创 2019-04-12 15:56:07 · 249 阅读 · 0 评论 -
NLP-文本分类(2)
文章目录1 任务2.IMDB数据集下载探索3.THUCNews数据子集探索1 任务数据集数据集:中、英文数据集各一份中文数据集:THUCNewsTHUCNews数据子集:https://pan.baidu.com/s/1hugrfRu 密码:qfud英文数据集:IMDB数据集 Sentiment AnalysisIMDB数据集下载和探索参考TensorFlow官方教程:影评...原创 2019-04-09 16:49:00 · 24847 阅读 · 0 评论 -
NLP--day(6)Svm
文章目录支持向量机支持向量机import pandas as pdfrom sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizerfrom sklearn.model_selection import train_test_splitfrom sklearn.sv...原创 2019-04-19 20:02:14 · 157 阅读 · 0 评论 -
NLP--day(7)PLSA PDA
文章目录PLSAPLSA(Probabilistic Latent Semantic Analysis) 概率隐语义分析PLSA的缺点:LSALSA的算法:PLSA:共轭先验分布1 概念2、原理3、总结4、应用场景5、主要优点有:6、主要缺点有:参考PLSAPLSA(Probabilistic Latent Semantic Analysis) 概率隐语义分析PLSA (概率潜语义分析) 是...原创 2019-04-19 20:31:41 · 263 阅读 · 0 评论 -
NLP--jieba(1)
文章目录1.基本分词函数与用法jieba.lcut以及jieba.lcut_for_search直接返回 list添加用户自定义词典1.基本分词函数与用法jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode)jieba.cut 方法接受三个输入参数:需要分词的...原创 2019-05-29 13:55:39 · 197 阅读 · 0 评论 -
NLP--jieba(关键词提取(TFIDF/TextRand))
关键词提取–TFIDF词频(Term Frequency,缩写为TF):出现次数最多的词如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。“逆文档频率”(IDF)TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比基于 TF-IDF 算法的关键词抽取import jieba.analysej...原创 2019-05-29 14:49:43 · 4496 阅读 · 0 评论 -
数据预处理--独热编码(One-Hot Encoding)和 LabelEncoder标签编码
一、问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。离散特征的编码分为两种情况:1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}使用pandas可以很方便的对离散型特征进行one-hot编码i...原创 2019-07-01 22:56:13 · 609 阅读 · 0 评论 -
编译原理中的四种文法
这是有关编译原理的。乔姆斯基体系是计算机科学中刻画形式文法表达能力的一个分类谱系,是由诺姆·乔姆斯基于1956年提出的。它包括四个层次:0-型文法(无限制文法或短语结构文法)包括所有的文法。该类型的文法能够产生所有可被图灵机识别的语言。可被图灵机识别的语言是指能够使图灵机停机的字串,这类语言又被称为递归可枚举语言。注意递归可枚举语言与递归语言的区别,后者是前者的一个真子集,是能够被一个总停机...原创 2019-07-08 10:25:04 · 2585 阅读 · 0 评论 -
LSA、PSLA、LDA和lda2vec进行主题建模
文章目录概述LSA代码实现PLSA在自然语言理解任务中,我们可以通过一系列的层次来提取含义——从单词、句子、段落,再到文档。在文档层面,理解文本最有效的方式之一就是分析其主题。在文档集合中学习、识别和提取这些主题的过程被称为主题建模。概述所有主题模型都基于相同的基本假设:每个文档包含多个主题;每个主题包含多个单词。换句话说,主题模型围绕着以下观点构建:实际上,文档的语义由一些我们所...原创 2019-08-18 21:10:30 · 590 阅读 · 0 评论