Spark LogisticRegression

博客介绍了如何在Spark中使用Scala实现Logistic回归,特别是针对libsvm格式的稀疏数据集。博主分享了初学Scala和Spark时的代码实践,欢迎同行批评指正。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

由于spark中默认支持原生矩阵格式的输入,但实际中我们经常碰到的是稀疏的数据集,因此这里我实现了一个与libsvm输入格式相同的logistic回归,刚接触scala和spark,代码写的还不够简洁,还请各位指点。

代码如下:

package spark.ml.classification

import java.util.Random  
import scala.collection.mutable.HashMap  
import scala.io.Source  
import org.apache.spark.SparkContext  
import org.apache.spark.rdd.RDD;  
import org.apache.spark.util.Vector  
import java.lang.Math  
import org.apache.spark.broadcast.Broadcast  

import spark.ml.utils.SparserVector
  
object SparseLR {  
  val labelNum = 2; // 类别数  
  val dimNum = 124; // 维度  
  val iteration = 10; // 迭代次数  
  val alpha = 0.1 // 迭代步长  
  val lambda = 0.1  
  val rand = new Random(42)  
  var w = Vector(dimNum, _ => rand.nextDouble) //用随机数初始化参数  
  
  /** 
   * 定义一个数据点 
   */  
  case class DataPoint(x: SparserVector, y: Int)  
  
  /** 
   * 解析一个训练样本,构造DataPoint结构 
   * @param 训练样本 
   */  
  def parsePoint(line: String): DataPoint = {  
    var features = new SparserVector(dimNum)  
    val field
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值