Spark Mlib(六)用spark实现贝叶斯分类器

最新推荐文章于 2020-11-30 09:56:10 发布

奋斗的小笨狗

最新推荐文章于 2020-11-30 09:56:10 发布

阅读量614

点赞数

CC 4.0 BY-SA版权

分类专栏： sparkMlib

本文链接：https://blog.youkuaiyun.com/fightingdog/article/details/83867577

sparkMlib 专栏收录该内容

6 篇文章

订阅专栏

本文介绍如何使用Spark MLlib库中的朴素贝叶斯分类器进行数据分类，通过加载LibSVM格式的数据集，将数据集划分为训练集和测试集，训练模型并评估其准确性，最后保存和加载模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

贝叶斯分类器是各种分类器中分类错误概率最小或者在预先给定代价的情况下平均风险最小的分类器。下面是spark官网（http://spark.apache.org/docs/latest/mllib-naive-bayes.html）给出的例子

package alg
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.mllib.classification.{NaiveBayes, NaiveBayesModel}
import org.apache.spark.mllib.util.MLUtils
object naiveBayes {

  def main(args:Array[String]):Unit={


    val sparkConf = new SparkConf().setMaster("local").setAppName("testTansformition")
    val sc = new SparkContext(sparkConf)

    val data=MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt")
    val Array(traning,test)=data.randomSplit(Array(0.6,0.4))

    val model=NaiveBayes.train(traning,lambda = 1.0,modelType ="multinomial")

    val predictAndLabel=test.map(p=>(model.predict((p.features)),p.label))


    val accuracy=1.0*predictAndLabel.filter(x=>x._1==x._2).count()/test.count()

    print("accuracy:"+accuracy)
    //save and load model
    model.save(sc, "target/tmp/myNaiveBayesModel")
    val sameModel = NaiveBayesModel.load(sc, "target/tmp/myNaiveBayesModel")

  }


}