
数据挖掘算法
文章平均质量分 94
HFUT_qianyang
刘老师指示:学如逆水行舟,不进则退;心似平原跑马,易放难收。不能放松,继续!
展开
-
零膨胀负二项回归模型的使用 R语言
简介近期,需要使用零膨胀负二项回归模型。因此,找到R语言中的一个包:pscl。首先,使用Rstudio下载此包。install.packages("pscl")该软件发表于下面的期刊。Zeileis A, Kleiber C, Jackman S. Regression models for count data in R[J]. Journal of statistical software, 2008, 27(8): 1-25.详细使用可以参考:https://cran.r-project原创 2020-05-19 10:06:17 · 12237 阅读 · 4 评论 -
指数分布族(Exponential Family)相关公式推导及在变分推断中的应用
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。未经本人允许禁止转载。文章目录指数分布族的概念典型分布转化Bernoulli分布Poisson分布Gaussian分布多元Gaussian分布Multinomial分布变分推断应用参考内容指数分布族的概念指数分布族是一系列分布的统称,包含连续和离散的相关分布。例如,正太分布...原创 2019-02-14 11:25:04 · 20805 阅读 · 4 评论 -
Java中Gamma、Beta等函数
math3实现Gamma函数在math3中提供了Gamma函数:Gamma.gamma(double a)log2 Gamma函数 private double logOn2Gamma(double value) { return com.aliasi.util.Math.log2Gamma(value); }beta函数的形式以下为beta函数的形式:math3实现be...原创 2019-02-19 15:48:37 · 2915 阅读 · 0 评论 -
Collapsed Variational Inference(Collapsed变分推断)算法以LDA推导为例
简介Collapsed Variational Inference(CVI)来源于下面这篇文章:Teh Y W, Newman D, Welling M. A collapsed variational Bayesian inference algorithm for latent Dirichlet allocation[C]//Advances in neural information ...原创 2019-02-16 11:14:53 · 1974 阅读 · 1 评论 -
变分推断之高斯混合模型(案例及代码)
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。未经本人允许禁止转载。案例来源本博客讲解的案例来源于于Journal of the American Statistical Association期刊(顶刊)上的内容:Blei D M, Kucukelbir A, McAuliffe J D. Variational i...原创 2019-01-29 19:15:47 · 16842 阅读 · 9 评论 -
变分推断以及在概率图模型中的应用
变分推断以前都是搞Gibbs采样,最近找国外导师的时候发现有必要学习一下变分推理。平均场理论来源于物理学,是一种研究复杂多体问题的方法,将数量巨大的互相作用的多体问题转化成每一个粒子处在一种弱周期场中的单体问题。如果将其应用到图模型中,可以将相互作用的多体看成相互作用的变量:变分贝叶斯推断LDA的变分推断Supervised topic models变分推断...原创 2019-01-25 12:36:25 · 10617 阅读 · 8 评论 -
Java基于stanford-corenlp实现英文词形还原
文章目录简介stanford-corenlpjava程序简介在做英文文本数据分析时,第一步便是提取词根。例如,一段文本中了出现‘options’和‘option’,其实这两个单词表示一个意思,那么在预处理时‘options’和‘option’都处理成‘option’。例如,下面给定的文本:jhend925 https://blog.youkuaiyun.com/timo1160139211/arti...原创 2018-11-08 22:23:42 · 3516 阅读 · 0 评论 -
识别和追踪主题层次的影响力者(来自2018 Machine Learning 论文学习笔记)
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 。以下内容是个人的论文阅读笔记,内容可能有不到之处,欢迎交流。未经本人允许禁止转载。文章目录论文来源论文学习笔记论文来源来自于2018年Machine Learning期刊上的论文。Su S, Wang Y, Zhang Z, et al. Identifying and tracking topic...原创 2018-11-05 15:33:00 · 1406 阅读 · 0 评论 -
K-Means原理详解与Java代码实现细节
K-Means原理介绍K-Means算法是一种非常常用的无监督聚类方法原创 2018-08-25 10:06:09 · 6787 阅读 · 11 评论 -
使用deeplearning4j训练Doc2Vec(文档向量)
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。未经本人允许禁止转载。在上一小节中,本人介绍了使用DeepLearning4J训练得到词向量(https://blog.youkuaiyun.com/qy20115549/article/details/82152462)。本篇主要介绍给定任意文本数据(分词后的数据),如何使用Deep...原创 2018-08-28 21:30:37 · 3103 阅读 · 0 评论 -
使用deeplearning4j训练Word2Vec(Java操作)
DeepLearning4J(DL4J)是一套基于Java语言的神经网络工具包,可以构建、定型和部署神经网络。本文训练的数据集是deeplearning4j中的自带数据集,数据表示如下: 对应的Word2Vec操作程序如下:package org.deeplearning4j.examples.nlp.word2vec;import org.deeplearning4j....原创 2018-08-28 18:23:53 · 4609 阅读 · 2 评论 -
gensim实现Doc2Vec和Word2Vec
在处理文本时,经常需要将其转化成向量的形式,然后去做分类和聚类,而word2vec和doc2vec方法是一种较为常用的方法。 在python的gensim包中实现了这两种算法,为了以后个人使用方便,这里写成博客,以供翻阅。 以下为数据集的形式: 每一行的每一个数字表示词的编号,这里也可以用具体的词。且数据保存在工程的/data/test.txt文本里。以下为Doc2vec的处理程...原创 2018-08-28 10:56:37 · 2727 阅读 · 3 评论 -
2018 A Sparse Topic Model for Extracting Aspect-Specific Summaries from Online Reviews 稀疏主题模型学习笔记
论文来源文章介绍模型及推理关于源码论文来源Rakesh V, Ding W, Ahuja A, et al. A Sparse Topic Model for Extracting Aspect-Specific Summaries from Online Reviews[C]//Proceedings of the 2018 World Wide Web Confere...原创 2018-07-09 17:22:56 · 1149 阅读 · 0 评论 -
基于Kmeans算法的文档聚类(包含Java代码及数据格式)
介绍给定多篇文档,如何对文档进行聚类。本博客使用的是k-means聚类方法。关于k-means网络上有很多资料介绍其算法思想和其数学公式。针对文档聚类,首先要讲文档进行向量化,也就是说要对文档进行编码。可以使用one-hot编码,也可以使用TF-IDF编码,也可以使用doc2vec编码等,总之,要将其向量化。本人最近做文本分类时,使用的一个baseline就是k-means文档聚类。其...原创 2018-05-31 21:01:54 · 6040 阅读 · 11 评论 -
面向消费者的自动文本分析(Automated Text Analysis for Consumer Research) 2017 JCR 论文阅读
文章简介Humphreys A, Jen-Hui Wang R. Automated Text Analysis for Consumer Research[J]. Journal of Consumer Research, 2017. 来自于管理类顶刊 Journal of Consumer Research,2017年发表的。概述性文章,讲述文本分析的流程,需要注意的问题,以及在消费者研...原创 2018-06-14 15:15:02 · 1679 阅读 · 0 评论 -
自然语言处理(英文停用词删除) Java程序
英文语料预处理针对英语语料预处理时,我们经常要将其进行词干转化,然后去除停用词等操作。英文停用词,类似于’a’,‘can’等对我们进行文本分析是无助的,所以要预处理掉。以下是使用Java删除停用词。同时,可将该程序改写成取高频词和低频词的程序。Java去除英文停用词package clouddataprocess;import java.io.BufferedReader...原创 2018-06-13 20:06:24 · 3560 阅读 · 0 评论 -
文本预处理之判断是否包含非法字符或非英文字符(Java)
非英文字符删除下面的代码用来去除非英文字符。例如将汉字、数字等字符全部去除 public static String isEnglishWord(String[] authors) { ArrayList<String> words = new ArrayList<>(); FileUtils.getStringArrList(authors,words);...原创 2019-05-25 15:59:40 · 3785 阅读 · 0 评论 -
Incorporating Lexical Priors into Topic Models(即交互式主题模型的应用)论文阅读
论文来源论文来自于自然语言处理会议ACLJagarlamudi J, Daumé III H, Udupa R. Incorporating lexical priors into topic models[C]//Proceedings of the 13th Conference of the European Chapter of the Association for Computat...原创 2019-03-30 11:19:08 · 688 阅读 · 0 评论 -
Math3中StatUtils类和MathArrays的使用(数组运算)
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。未经本人允许禁止转载。MathArrays的使用归一化数组import org.apache.commons.math3.random.SobolSequenceGenerator;import org.apache.commons.math3.util.MathArra...原创 2019-05-30 14:56:47 · 1345 阅读 · 0 评论 -
Java共现矩阵的构建(用于社交网络结构分析)
本文作者:合肥工业大学 电子商务研究所 钱洋 email:1563178220@qq.com 。内容可能有不到之处,欢迎交流。未经本人允许禁止转载。文章目录背景Java实现共现矩阵程序运行结果关于社区发现算法背景最近,在做研究的时候,需要使用到Louvain社区检测算法(Louvain Community Detection)。而该算法的输出是节点-节点或节点-节点-权重。如节点-节点的...原创 2019-09-27 15:59:59 · 3215 阅读 · 0 评论 -
聚类的评估指标
参考:https://github.com/chrisPiemonte/url2vec/blob/master/notebooks/embedding.ipynb原创 2019-09-26 08:28:02 · 2089 阅读 · 0 评论 -
双稀疏主题模型(Dual-Sparse Topic Model)编程实现中的细节 Java
本文作者:合肥工业大学 电子商务研究所 钱洋 email:1563178220@qq.com 。内容可能有不到之处,欢迎交流。未经本人允许禁止转载。文章目录论文来源相关介绍单稀疏模型双稀疏模型模型推理Java编程实现的细节论文来源Lin T, Tian W, Mei Q, et al. The dual-sparse topic model: mining focused topics ...原创 2019-07-04 10:17:19 · 1602 阅读 · 0 评论 -
Partially Labeled Dirichlet Allocation(PLDA)算法的理解与编程细节(Java)
本文作者:合肥工业大学 电子商务研究所 钱洋 email:1563178220@qq.com 。内容可能有不到之处,欢迎交流。未经本人允许禁止转载。文章目录论文来源模型论文来源Ramage D, Manning C D, Dumais S. Partially labeled topic models for interpretable text mining[C]//Proceedin...原创 2019-06-24 22:32:47 · 1446 阅读 · 1 评论 -
HDP(层次狄利克雷过程)算法代码实现细节梳理(Java)
本文作者:合肥工业大学 电子商务研究所 钱洋 email:1563178220@qq.com 。内容可能有不到之处,欢迎交流。未经本人允许禁止转载。文章目录HDP简介有向图表示CRF的关键HDP的采样编程角度解读采样桌子采样主题完整代码参考HDP简介Teh Y W, Jordan M I, Beal M J, et al. Sharing clusters among related g...原创 2019-06-23 10:42:09 · 8232 阅读 · 3 评论 -
决策树模型(ID3/C4.5/CART)原理和底层代码解读 学习笔记
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。未经本人允许禁止转载如下为个人的学习笔记,使用latex编写,再写成文本太麻烦,这里直接截图。个人笔记内容...原创 2019-06-17 10:31:21 · 1163 阅读 · 0 评论 -
变分推断中的ELBO(证据下界)
变分推断简介变分推理的目标是近似潜在变量(latent variables)在观测变量(observed variables)下的条件概率。解决该问题,需要使用优化方法。在变分推断中,需要使用到的一个重要理论,是平均场理论,读者可以参考我的另外一篇博客:https://qianyang-hfut.blog.youkuaiyun.com/article/details/86644192变分推断等价于最小化...原创 2019-06-20 20:36:21 · 54800 阅读 · 6 评论 -
贝叶斯分层回归模型的推理、EM求解和Java编程
模型如下为模型:这个模型中,参数和协方差服从正太逆Wishart先验。根据模型,给出所有变量的联合似然,即:公式推理因变量和权重的联合概率分布可表示为:求对数:其中,EM求解令:则:编程下面,给出了EM算法迭代的核心代码:/**EM UPDATE * @author Qianyang * ****/public static Map<In...原创 2019-06-11 09:33:29 · 3400 阅读 · 0 评论 -
Labeled LDA(有监督)主题模型的理解、推理与编程
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 。以下内容是个人的论文阅读笔记,内容可能有不到之处,欢迎交流。未经本人允许禁止转载。文章目录算法来源算法简介背景Labeled LDA模型参数学习编程实现算法来源这个算法来源于:Ramage D, Hall D, Nallapati R, et al. Labeled LDA: A supervis...原创 2019-06-04 16:15:33 · 11148 阅读 · 3 评论 -
Java中Math3 各种随机数生成器的使用(Random Generator)
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。未经本人允许禁止转载。文章目录背景python中numpy生成随机数产生一组随机数产生二维随机数归一化随机数标准正太分布随机数多元正太分布随机数Java中math3产生各种随机数背景在编写机器学习算法时,经常需要对各类参数进行初始化,例如一些使用变分推断算法的模型。无论是在...原创 2019-05-29 22:11:44 · 4746 阅读 · 0 评论 -
20190530本科教学PPT 文本挖掘的两种基本方法(TF-IDF和LDA)
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。未经本人允许禁止转载。以下,是给本科生讲解和演示TF-ID以及LDA模型所作的PPT。对本科来说,掌握一些文本挖掘方法是非常有必要的,比如最基本的TF-IDF、LDA、Word2Vec、Doc2Vec等。学透机器学习算法,不仅要掌握原理(即公式),还要有独立实现算法的能力。...原创 2019-05-29 19:13:10 · 2249 阅读 · 0 评论 -
理解偏差和方差(Bias-Variance)的Tradeoff
文章目录简介偏差(Bias)与方差(Variance)的概念过拟合和欠拟合Bias-Variance DecompositionGBDT 和 RF参考简介当在讨论预测模型时,预测的误差可以分解成两个子部分,即由偏差(Bias)引起的误差和由方差引起的误差。那么,模型相当于是在最小化偏差和方差之间权衡。理解Bias-Variance Tradeoff将有助于建模,进而避免过拟合和欠拟合。偏差(...原创 2019-06-13 10:12:39 · 2790 阅读 · 0 评论 -
Collaborative topic modeling(推荐)算法实现中的大数组问题
问题背景最近,在使用Java实现一个个性化推荐算法时,遇到了非常常见的问题。实现的算法为:Wang C, Blei D M. Collaborative topic modeling for recommending scientific articles[C]//Proceedings of the 17th ACM SIGKDD international conference on Kn...原创 2019-05-31 17:39:53 · 1115 阅读 · 0 评论 -
Java实现多元t分布函数(Multivariate t distributions)
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。未经本人允许禁止转载文章目录问题背景编程实现问题背景最近,在独立实现Gaussian LDA算法时,遇到了Multivariate t distributions。Gaussian LDA对应的论文是:Das R, Zaheer M, Dyer C. Gaussian l...原创 2019-06-05 17:34:38 · 3967 阅读 · 0 评论 -
Jaccard文本相似度计算 Java程序
Jaccard相似系数两个集合A和B交集元素的个数在A、B并集中所占的比例,称为这两个集合的Jaccard系数,用符号 J(A,B) 表示。Jaccard相似系数是衡量两个集合相似度的一种指标: Java程序package clouddataprocess;import org.slf4j.Logger;import org.slf4j.LoggerFac...原创 2018-06-13 19:04:01 · 3971 阅读 · 0 评论 -
LSTM模型结合LDA对序列性文本建模 阅读笔记 2017 ICML
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流。未经本人允许禁止转载。文章来源 Zaheer M, Ahmed A, Smola A J. Latent LSTM Allocation: Joint Clustering and Non-Linear Dynamic Modeling of Sequence Dat...原创 2018-06-04 10:40:26 · 3852 阅读 · 0 评论 -
主题模型聚类匹配2018TKDE阅读笔记(Topic Models for Unsupervised Cluster Matching)
论文来源 Iwata T, Hirao T, Ueda N. Topic Models for Unsupervised Cluster Matching[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(4): 786-795.作者是日本人Iwata T,也是个机器学习大牛,每年都有一系列的文章出来,还是很厉害的。原创 2018-04-21 17:16:37 · 2173 阅读 · 1 评论 -
recall和precision的理解
假设一共有10篇文章,里面4篇是你要找的。根据你某个算法,你认为其中有5篇是你要找的,但是实际上在这5篇里面,只有3篇是真正你要找的。那么你的这个算法的precision是3/5=60%,也就是,你找的这5篇,有3篇是真正对的这个算法的recall是3/4=75%,也就是,一共有用的这4篇里面,你找到了其中三篇。转载自:知乎 作者:付滨 链接:https://www.zhihu.com/ques转载 2017-02-08 11:27:43 · 2971 阅读 · 0 评论 -
Correlated Topic model 的Gibbs sampling
原文来自师兄的博客:http://blog.youkuaiyun.com/wjj5881005/article/details/53320577关于经典LDA的thetaCorrelated Topic Model中的thetaCTM的Gibbs sampling1 CTM中关于主题zz的采样2 CTM中关于文档主题分布参数eta的后验分布3 CTM中关于文档主题分布参数eta的Gibbs sampl转载 2016-12-09 09:17:42 · 2557 阅读 · 0 评论 -
LDA的Gibbs抽样详细推理与理解
LDA图模型表示LDA所要求得目标分布联合概率分布求解参考文献本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 欢迎交流。LDA图模型表示LDA所要求得目标分布关于LDA的理解,可以去看《LDA数学八卦》以及Heinrich G. Parameter estimation for text analysis[J]. University of Leip原创 2016-12-11 21:19:33 · 5441 阅读 · 1 评论 -
关于多元正态分布的条件概率密度
原文来自师兄的博客:http://blog.youkuaiyun.com/wjj5881005/article/details/53320403多元正态分布多元正态分布的条件密度多元正态分布多元正态分布的密度函数如下 : fx(x1,...xn)=1(2π)k√|Σ|1/2exp(−12(x−μ)TΣ−1(x−μ))f_{x}(x_{1},...x_{n})=\frac{1}{\sqrt{(2\pi)^{转载 2017-01-10 21:16:23 · 12421 阅读 · 0 评论