spark之MLlib机器学习-线性回归

最新推荐文章于 2024-06-06 23:03:20 发布

原创最新推荐文章于 2024-06-06 23:03:20 发布 · 1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #spark #mllib

机器学习与数据挖掘同时被 3 个专栏收录

29 篇文章

订阅专栏

大数据技术

9 篇文章

订阅专栏

spark

7 篇文章

订阅专栏

本文介绍了一个基于Spark MLlib的线性回归示例，通过Scala语言实现，包括数据准备、模型训练及预测结果评估。该示例展示了如何使用Spark MLlib API进行简单的线性回归分析。

此篇博文根据《Spark MLlib机器学习》实例程序编写，可作为熟悉scala和mllib编写机器学习算法的一种实践。
1、准备测试数据
可从作者博客自行下载。代码及数据下载地址
2、编写scala源码
为了进一步熟悉scala编程语言，建议自己把代码敲一次。

//import org.apache.log4j{ Level, Logger }
import org.apache.spark.{SparkConf,SparkContext}
import org.apache.spark.mllib.regression.LinearRegressionWithSGD
import org.apache.spark.mllib.util.MLUtils
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LinearRegressionModel

object LinearRegression{

  def main(args:Array[String]){

    val conf = new SparkConf().setAppName("LinearRegressionWithSGD")
    val sc =new SparkContext(conf)
  //  Logger.getRootLogger.setLevel(Level.WARN)

    val data_path1="file:///usr/spark2.0/data/mllib/mydata/lpsa.data"
    val data=sc.textFile(data_path1)
    val examples=data.map{line=>
     val parts=line.split(',')
     LabeledPoint(parts(0).toDouble,Vectors.dense(parts(1).split(' ').map(_.toDouble)))
    }.cache()

    val numExamples=examples.count()
    val numIterations=100
    val stepSize=1
    val miniBatchFraction=1.0
    val model=LinearRegressionWithSGD.train(examples,numIterations,stepSize,miniBatchFraction)
    val prediction=model.predict(examples.map(_.features))
    val predictionAndLabel=prediction.zip(examples.map(_.label))
    val print_predict=predictionAndLabel.take(50)
    println("prediction"+"\t"+"label")
    for (i <- 0 to print_predict.length-1 ){
       println(print_predict(i)._1 + "\t" + print_predict(i)._2)
    }
    val loss =predictionAndLabel.map{
        case(p,_)=>
            val err = p - 1
            err*err
    }.reduce(_+_)
    val rmse=math.sqrt(loss/numExamples)
    println(s"Test RMSE = $rmse.")

  }