
sparkMlib
奋斗的小笨狗
这个作者很懒,什么都没留下…
展开
-
Spark Mlib(一) svm
SVM(Support Vector Machine)指的是支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。下面是spark官网给出的例子。原网址为http://spark.apache.org/docs/latest/mllib-linear-methods.html#classificationimport org.apach...原创 2018-11-02 11:39:00 · 366 阅读 · 0 评论 -
Spark Mlib(七)用spark实现LogisticRegression
logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域.以下是spark中该算法的实现方式,原地址为http://spark.apache.org/docs/latest/mllib-linear-methods.html#classificationpackage algimport org.apache.spark.{...原创 2018-11-10 15:51:58 · 810 阅读 · 0 评论 -
Spark Mlib(二)k-menas
spark官网给出的k-means的实现方式,原地址http://spark.apache.org/docs/latest/ml-clustering.htmlpackage algimport org.apache.spark.ml.clustering.KMeansimport org.apache.spark.ml.evaluation.ClusteringEvaluatorimpo...原创 2018-11-08 14:24:48 · 268 阅读 · 0 评论 -
Spark Mlib(三)用spark训练词向量
自然语言处理中,在词的表示上,向量的方式无疑是最流行的一种。它可以作为神经网络的输入,也可直接用来计算。比如计算两个词的相似度时,就可以用这两个词向量的距离来衡量。词向量的训练需要大规模的语料,从而带来的是比较长的训练时间。spark框架基于内存计算,有忘加快词向量的训练速度。以下是spark官网的代码(http://spark.apache.org/docs/latest/ml-feature...原创 2018-11-08 17:44:46 · 1124 阅读 · 0 评论 -
Spark Mlib(四)用spark计算tf-idf值
tf-idf算法是用统计的手法衡量一个元素在一个集合中的重要程度。在自然语言处理中,该算法可以衡量一个词在语料中的重要程度。其本思想很简单,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。下面是spark官网(http://spark.apache.org/docs/latest/ml-features.html#tf-idf)给出的例子packag...原创 2018-11-08 18:17:33 · 1349 阅读 · 0 评论 -
Spark Mlib(六)用spark实现贝叶斯分类器
贝叶斯分类器是各种分类器中分类错误概率最小或者在预先给定代价的情况下平均风险最小的分类器。下面是spark官网(http://spark.apache.org/docs/latest/mllib-naive-bayes.html)给出的例子package algimport org.apache.spark.{SparkConf, SparkContext}import org.apache...原创 2018-11-08 20:20:14 · 603 阅读 · 0 评论