
机器学习
ZL小屁孩
这个作者很懒,什么都没留下…
展开
-
SPARK官方实例:两种方法实现随机森林模型(ML/MLlib)
在spark2.0以上版本中,存在两种对机器学习算法的实现库MLlib与ML,比如随机森林:org.apache.spark.mllib.tree.RandomForest和org.apache.spark.ml.classification.RandomForestClassificationModel两种库对应的使用方法也不同,Mllib是RDD-based API,ML是基于ML p...转载 2018-07-26 17:41:42 · 3100 阅读 · 0 评论 -
spark的NaiveBayes中文文本分类
中文分词使用的ANSJ工具,需要下载两个jar包:ansj_seg和nlp-lang,ansj中文分词的jar下载地址:ansj_seg jar下载地址:https://oss.sonatype.org/content/repositories/releases/org/ansj/ansj_seg/nlp-lang的jar下载地址:https://oss.sonatype.org/...原创 2018-08-05 15:18:49 · 2983 阅读 · 0 评论 -
spark之TF-IDF浅谈
所用或所学知识,忘了搜,搜了忘,还不如在此记下,还能让其他同志获知。在使用spark实现机器学习相关算法过程中,档语料或者数据集是中文文本时,使用spark实现机器学习相关的算法需要把中文文本转换成Vector或LabeledPoint等格式的数据,需要用到TF-IDF工具。何为TF-IDFTF(Term Frequency):表示某个单词或短语在某个文档中出现的频率,说白了就是词频,其...原创 2018-12-12 21:04:44 · 1189 阅读 · 0 评论 -
主题分析模型LDA的spark实现
主体分析模型主要有PLSA(Probabilistic Latent Semantic Anlysis,概率引语义分析)和LDA(Latent Dirichlet Allocation,隐含狄利克雷分布),在此暂时介绍LDA的spark实现。 * 主题分析模型自动分析每个文档,统计文档内的词语,根据统计的信息来判断当前文档含有 * 哪些主题,以及每个主题所占的比例格式多少。 ...原创 2018-12-14 22:26:20 · 1282 阅读 · 1 评论