学习笔记:使用Spark进行特征向量统计分析

这篇笔记介绍了如何使用Spark计算带有权重和不带权重的特征向量的均值和方差。在给定的二维数据集中,通过对每个样本的特征向量和权重进行操作,详细展示了计算过程和结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

题目:

在给定的数据集中,计算带权重和不带权重的特征向量的均值和方差。

数据:

我们有两个样本,每个样本由一个三维特征向量和一个权重组成。具体数据如下:

  • 第一个样本的特征向量是 [2.0, 3.0, 5.0],权重为 1.0。
  • 第二个样本的特征向量是 [4.0, 6.0, 7.0],权重为 2.0。
代码实现:
import org.apache.spark.SparkConf
import org.apache.spark.ml.linalg.{Vector, Vectors}
import org.apache.spark.ml.stat.Summarizer._
import org.apache.spark.sql.SparkSession

object SparkTask3 {
  def main(args: Array[String]): Unit = {

    // 创建Spark配置对象
    val conf = new SparkConf().setMaster("local[*]")
    val spark = SparkSession.builder().config(conf).appName("task3").getOrCreate()

    import spark.implicits._

    // 创建数据集DataFrame
    val data = Seq(
      (Vectors.dense(2.0, 3.0, 5.0), 1.0),
      (Vectors.dense(4.0, 6.0, 7.0), 2.0)
    )
    val df = data.toDF("features", "weight")

    // 使用带权重的均值和方差方法计算
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值