
NLP
沐漜
。懒惰,呵呵
展开
-
NLP 学习 task2 - jieba、分词、去停用词、词频统计
函数功能主要为调用简单的jiaba分词(stripdata函数)并进行停用词去除(stripword函数)main函数为creat(),可修改为if name ==’main’: 进行调用。import jieba#分词def stripdata(Test): # jieba 默认启用了HMM(隐马尔科夫模型)进行中文分词 seg_list = jieba.cut(Tes...原创 2019-05-14 10:25:16 · 3332 阅读 · 1 评论 -
循环神经网络
循环神经网络循环神经网络(Recurrent Neural Network,RNN)是一类具有短期记忆能力的神经网络。在循环神经网络中,神经元不但可以接受其它神经元的信息,也可以接受自身的信息,形成具有环路的网络结构。和前馈神经网络相比,循环神经网络更加符合生物神经网络的结构。循环神经网络已经被广泛应用在语音识别、语言模型以及自然语言生成等任务上。循环神经网络的参数学习可以通过随时间反向传播算法...转载 2019-05-26 21:49:00 · 1067 阅读 · 0 评论 -
NLP_Task4 文本表示:从one-hot到word2vec
预备知识Huffman树神经概率语言模型**输入层的输入是单词的Onehot基于Negative Sampling背景语言模型在统计自然语言处理中,语言模型指的是计算一个句子的概率模型。传统的语言模型中词的表示是原始的、面向字符串的。两个语义相似的词的字符串可能完全不同,比如“番茄”和“西红柿”。这给所有NLP任务都带来...转载 2019-05-17 22:52:38 · 475 阅读 · 0 评论 -
卷积神经网络
卷积神经网络(CNN)卷积神经网络结构: 输入层,卷积层, 池化层(又称采样层),全连接层,输出层卷积层负责提取特征,采样层负责特征选择卷积与池化卷积的主要作用:降维( dimension reductionality )加入非线性。提升网络的表达能力;跨通道信息交互(channel 的变换)卷积运算运用三个重要的思想来帮助改进机器学习系统 :稀疏交互(sparse inter...原创 2019-05-23 15:53:05 · 560 阅读 · 0 评论 -
NLP_task4文本表示_CBOW和Skip-gram模型
从one-hot到word2vecone-hot向量词向量的意思就是通过一个数字组成的向量来表示一个词,这个向量的构成可以有很多种。其中,比较简单的方式就是所谓的one-hot向量。假设在一个语料集合中,一种有n个不同的词,则可以使用一个长度为n的向量,对于第i个词(i=0…n−1) ,向量index=i处值为1外,向量其他位置的值都为0,这样就可以唯一地通过一个[0,0,1,…,0,0] ...转载 2019-05-28 13:56:43 · 2741 阅读 · 0 评论 -
attention机制(转载)
注意力模型最近几年在深度学习各个领域被广泛使用,无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中,都很容易遇到注意力模型的身影。所以,了解注意力机制的工作原理对于关注深度学习技术发展的技术人员来说有很大的必要。人类的视觉注意力从注意力模型的命名方式看,很明显其借鉴了人类的注意力机制,因此,我们首先简单介绍人类视觉的选择性注意力机制。图1 人类的视觉注意力视觉注意力机制是人类...转载 2019-05-28 17:45:41 · 358 阅读 · 0 评论 -
【NLP】Attention原理和源码解析
内容:1. 核心思想2. 原理解析(图解+公式)3. 模型分类4. 优缺点5. TF源码解析1. 核心思想Attention的思想理解起来比较容易,就是在decoding阶段对input中的信息赋予不同权重。在nlp中就是针对sequence的每个time step input,在cv中就是针对每个pixel。2. 原理解析针对Seq2seq翻译来说,rnn-based mod...转载 2019-05-28 23:37:04 · 1492 阅读 · 0 评论 -
ELMo算法原理
ELMo算法原理0. 目录1. 前言2. ELMo模型介绍3. ELMo原理介绍3.1 ELMo的预训练3.2 使用语言模型4. 总结0. 目录1. 前言前言今天给学习一篇2018年提出的论文《Deep contextualized word representations》,在这篇论文中提出了一个很重要的思想ELMo。本人认为ELMo的提出对后面的的GPT和BRET有一个很好的引导和启...转载 2019-06-25 10:19:57 · 2505 阅读 · 0 评论 -
ELMO代码学习
import tensorflow_hub as hubimport tensorflow as tfimport reimport numpy as npimport pickleimport pandas as pdfrom nltk import WordNeatLemmatizer,word_tokenizefrom nltk.corpus import stopwords...转载 2019-06-26 19:15:05 · 652 阅读 · 0 评论 -
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding学习
一、什么是BERT模型?谷歌团队的Thang Luong直接定义:BERT模型开启了NLP的新时代BERT这个模型与ELMo和OpenAI的fine-tune transformer的不同的是,它在训练双向语言模型时以减小的概率把少量的词替成了Mask或者另一个随机的词。我个人感觉这个目的在于使模型被迫增加对上下文的记忆。BERT模型具有以下两个特点:第一,是这个模型非常的深,...转载 2019-06-29 18:48:09 · 1682 阅读 · 0 评论 -
NLP 学习 task1_3. THUCNews数据集下载和探索
数据集这里采用了清华NLP组提供的THUCNews新闻文本分类数据集的一个子集(原始的数据集大约74万篇文档,训练起来需要花较长的时间)。数据集请自行到THUCTC:一个高效的中文文本分类工具包下载,请遵循数据提供方的开源协议。本次训练使用了其中的10个分类,每个分类6500条,总共65000条新闻数据。类别如下:体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐...原创 2019-05-12 20:51:10 · 2591 阅读 · 0 评论 -
NLP task2 N-Gram
N-Gram是一种基于统计语言模型的算法N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。n元语法模型是基于(n-...原创 2019-05-14 14:33:21 · 875 阅读 · 0 评论 -
NLP task2 _ 自然语言处理中N-Gram模型的Smoothing算法
使用N-Gram模型时的数据平滑算法背景:为什么要做平滑处理? 零概率问题,就是在计算实例的概率时,如果某个量x,在观察样本库(训练集)中没有出现过,会导致整个实例的概率结果是0。在文本分类的问题中,当一个词语没有在训练样本中出现,该词语调概率为0,使用连乘计算文本出现概率时也为0。这是不合理的,不能因为一个事件没有观察到就武断的认为该事件的概率是0。平滑技术平滑技术是为了解决训练集的数...原创 2019-05-14 16:38:28 · 2288 阅读 · 1 评论 -
NLP_task朴素贝叶斯
朴素贝叶斯法朴素贝叶斯(naïve Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。朴素贝叶斯法实现简单,学习与预测的效率都很高,是一种常用的方法。朴素贝叶斯法的学习与分类基本方法后验概率最大化的含义朴素贝叶斯...原创 2019-05-20 15:31:30 · 287 阅读 · 0 评论 -
NLP_task_SVM模型
SVM支持向量机(英文全称:support vector machine)是一个分类算法, 通过找到一个分类平面, 将数据分隔在平面两侧, 从而达到分类的目的。SVM的推导分为5个步骤:用数学来定义要求解的问题SVM是求解一个平面S:y = wx + b, 其实就是求解参数w, b。如何来求解w, b呢? 怎么判断训练的w, b构成的平面已经足够好呢? 这就需要把问题建模成一个数学问题(...转载 2019-05-20 21:55:24 · 264 阅读 · 0 评论 -
NLP task3特征选择_文本挖掘预处理之TF-IDF
文本挖掘预处理之TF-IDFcorpus=[“I come to China to travel”,“This is a car polupar in China”,"I love tea and Apple ",“The work is to write some papers in science”][u’and’, u’apple’, u’car’, u’china’, u’com...原创 2019-05-15 23:31:59 · 399 阅读 · 0 评论 -
NLP_task_激活函数
Activation functions神经网络隐藏层和输出层都需要激活函数(activation function),在之前的课程中我们都默认使用Sigmoid函数 σ(x) 作为激活函数。其实,还有其它激活函数可供使用,不同的激活函数有各自的优点。下面我们就来介绍几个不同的激活函数 g(x) 。sigmoid函数优点:(1)便于求导的平滑函数;(2)能压缩数据,保证数据幅度不会有...原创 2019-05-21 15:25:00 · 430 阅读 · 0 评论 -
NLP_BoW(词袋)模型介绍
BoW模型Bag-of-words model (BoW model) 最早出现在自然语言处理(Natural Language Processing)和信息检索(Information Retrieval)领域.。该模型忽略掉文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。BoW使用一组无序的单词(words)来表达一段文字或一个文档.。近年来,BoW模...原创 2019-05-16 14:50:18 · 3828 阅读 · 0 评论 -
NLP_task3特征选择_使用不同的方法计算TF-IDF值的结论
这篇文章主要介绍了计算TF-IDF的不同方法实现,主要有三种方法:用gensim库来计算tfidf值用sklearn库来计算tfidf值用python手动实现tfidf的计算1.使用gensim提取文本的tfidf特征首先来看我们的语料库corpus = [ 'this is the first document', 'this is the second seco...原创 2019-05-16 16:47:54 · 336 阅读 · 0 评论 -
NLP_task3特征选择_点互信息和互信息(求词语关联性)
点互信息和互信息点互信息PMI机器学习相关文献里面,经常会用到点互信息PMI(Pointwise Mutual Information)这个指标来衡量两个事物之间的相关性(比如两个词)。其原理很简单,公式如下:在概率论中,我们知道,如果x跟y不相关,则p(x,y)=p(x)p(y)。二者相关性越大,则p(x, y)就相比于p(x)p(y)越大。用后面的式子可能更好理解,在y出现的情...原创 2019-05-16 17:19:06 · 4716 阅读 · 0 评论 -
总结-深度学习中的正则化方法(regularization)
深度学习面临的非常严重的一个问题就是过拟合(overfitting)。通过一些正则化的方法,可以消除过拟合,从而使我们的模型能够得到更好的效果。1. 什么是正则化这张图,我想接触过机器学习的朋友们应该都看了很多遍了吧。我们先从回归的角度来看待上图。假设坐标系内有一系列的点,我们希望通过一个函数来拟合出一条线,使得这条线能尽可能的贴近这些点,从而可以用这条线(也就是我们得到的模型)来表示坐标...转载 2019-05-21 22:07:19 · 11170 阅读 · 0 评论 -
nlp 特征提取 -task2
1. 基本文本处理技能1.1 分词的概念(分词的正向最大、逆向最大、双向最大匹配法);百度百科定义:中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。维基百科定义:Word segmentation is the problem of dividing a string of...原创 2019-08-09 01:17:05 · 731 阅读 · 0 评论