
NLP
文章平均质量分 91
你搁这儿写bug呢?
这个作者很懒,什么都没留下…
展开
-
NLP基础--single-pass 聚类算法
文章目录1. k-means聚类2. single-pass 聚类参考在介绍single-pass聚类方法之前,我们先来了解一下最有名的聚类算法k-means。1. k-means聚类所谓聚类算法是指将一堆没有标签的数据自动划分成几类的方法,属于无监督学习方法,这个方法要保证同一类的数据有相似的特征,根据样本之间的距离或者说是相似性(亲疏性),把越相似、差异越小的样本聚成一类(簇),最后形成多个簇,使同一个簇内部的样本相似度高,不同簇之间差异性高。聚类算法有很多种(几十种),K-Means是聚类算法转载 2020-09-11 09:02:04 · 6977 阅读 · 1 评论 -
NLP基础---LDA
文章目录1. 几个分布和共轭的概念2. pLSA2.1 pLSA模型下生成文档2.2 根据文档反推其主题分布3. LDA模型3.1 pLSA跟LDA的对比:生成文档与参数估计3.2 pLSA跟LDA的概率图对比3.3 Gibbs采样参考:1. 几个分布和共轭的概念在了解LDA之前,需要先来简单了解几个分布和共轭的概念。我们需要先介绍一个概念——共轭先验(Conjugate Prior)。Conjugate Prior: In Bayesian probability theory, if the转载 2020-09-11 08:59:14 · 504 阅读 · 0 评论 -
NLP 基础--word2vec + text-cnn Demo
文章目录1.数据处理1.1 数据集1.2 数据预处理2. 文本卷积神经网络3. 模型训练4. 总结本文是在文本分类实战(二)—— textCNN 模型这个博客的基础上进行的。1.数据处理1.1 数据集首先,数据集是采用的IMDB 电影影评,总共有三个数据文件,包括unlabeledTrainData.tsv,labeledTrainData.tsv,testData.tsv。在进行文本分类时需要有标签的数据(labeledTrainData),但是在训练word2vec词向量模型(无监督学习)时可以转载 2020-09-11 09:00:20 · 3585 阅读 · 0 评论 -
NLP基础--文本卷积神经网络text-cnn
在熟悉卷积神经网络之后,再看文本卷积神经网络就很简单。一个经典的图就可以说明。输入:如下图,我们可以看到一句话"I like this movie very much!",每个单词使用一个shape为1*5的行向量表示,然后这7个单词以垂直方式堆积成一个二维矩阵。该二维矩阵的shape为count(单词)*5。卷积核:输入确定之后,后面的一层中展示的是3个不同尺寸的卷积核,分别为2个45、2个35和2个2*5的卷积核。可以看出来,卷积核的一个维度是确定的,与词向量的维度d相等。那么这里的卷积就不原创 2020-09-11 08:58:07 · 2261 阅读 · 0 评论 -
NLP基础--word2vec的使用Demo
文章目录1.python自带word2vec包的使用1.1 中文分词1.2 word2vec2. gensim之word2vec的使用参考在网上搜到有直接使用python自带word2vec包,也有使用gensim中的word2vec包。下面就介绍这两种方法。首先说明我的环境:使用Ubuntu16,python2.1.python自带word2vec包的使用数据:来源于搜狗实验室的搜狐新闻数据。下载的是完整版,如下图。下载下来的文件名为news_sohusite_xml.full.tar.gz。转载 2020-09-11 08:56:10 · 1075 阅读 · 0 评论 -
NLP基础--中文分词、去停用词小Demo
1. 使用jieba对中文进行分词、去停用词ChnSentiCorp_htl_all数据集下载自:https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/ChnSentiCorp_htl_all/intro.ipynb这个数据集有7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论。数据大概长下面的样子:第一列是lable,取0或1。0表示负面评价,1表示正面评价。第二列是评论内容。在本文这个小Demo转载 2020-09-11 08:55:20 · 2930 阅读 · 0 评论 -
NLP基础--文本特征提取&&中文分词&&word2vec原理
文章目录1. 文本特征提取1.1 词集模型1.2 BOW(Bag of Words)词袋模型1.3 TF-IDF2. 中文分词2.1 基于词典匹配的分词方法2.1.1 正向最大匹配(MM, MaximumMatching )2.1.2 逆向最大匹配(RMM,ReverseMaximum Matching)2.1.3 双向匹配2.2 基于统计的分词方法2.2.1 基于n-gram的分词方法2.2.2 基于隐马尔科夫模型HMM的分词方法参考:1. 文本特征提取1.1 词集模型例如One-Hot 编码,只要转载 2020-09-11 09:01:14 · 3380 阅读 · 0 评论