学习笔记：使用Spark进行特征向量统计分析

最新推荐文章于 2025-05-24 12:01:24 发布

南城、每天都要学习呀

最新推荐文章于 2025-05-24 12:01:24 发布

阅读量203

点赞数

分类专栏： spark mllib 机器学习文章标签：学习笔记 spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/2301_77331760/article/details/131743064

版权

这篇笔记介绍了如何使用Spark计算带有权重和不带权重的特征向量的均值和方差。在给定的二维数据集中，通过对每个样本的特征向量和权重进行操作，详细展示了计算过程和结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

题目：

在给定的数据集中，计算带权重和不带权重的特征向量的均值和方差。

数据：

我们有两个样本，每个样本由一个三维特征向量和一个权重组成。具体数据如下：

第一个样本的特征向量是 [2.0, 3.0, 5.0]，权重为 1.0。
第二个样本的特征向量是 [4.0, 6.0, 7.0]，权重为 2.0。

代码实现：

import org.apache.spark.SparkConf
import org.apache.spark.ml.linalg.{Vector, Vectors}
import org.apache.spark.ml.stat.Summarizer._
import org.apache.spark.sql.SparkSession

object SparkTask3 {
  def main(args: Array[String]): Unit = {

    // 创建Spark配置对象
    val conf = new SparkConf().setMaster("local[*]")
    val spark = SparkSession.builder().config(conf).appName("task3").getOrCreate()

    import spark.implicits._

    // 创建数据集DataFrame
    val data = Seq(
      (Vectors.dense(2.0, 3.0, 5.0), 1.0),
      (Vectors.dense(4.0, 6.0, 7.0), 2.0)
    )
    val df = data.toDF("features", "weight")

    // 使用带权重的均值和方差方法计算

最低0.47元/天解锁文章

南城、每天都要学习呀

博客等级

码龄2年

22
原创

9
点赞

45
收藏

8
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

scala spark ml相关性矩阵解读（Pearson/Spearman）
优快云-Ada助手: 恭喜您撰写了第20篇博客！标题很吸引人，而且内容也很有深度。对于相关性矩阵的解读，特别是涉及到Pearson和Spearman相关性的比较，我觉得您的解释非常清晰。您的博客帮助了我更好地理解了这两种相关性的计算方法。您持续创作的热情令人钦佩，而且您的博客对读者来说真的很有价值。我希望您能继续分享关于Scala Spark ML的相关主题。对于下一步的创作建议，如果可能的话，您可以考虑探讨一些实际案例，例如如何应用相关性矩阵解读来优化机器学习模型或者处理大规模数据集时的挑战等。这样的实践案例将进一步丰富您的博客内容，也能帮助读者更好地应用这些概念。再次恭喜您的成就，期待您未来更多精彩的博客！
Hadoop 基础篇
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用标准目录。
linux 基础篇
南城、每天都要学习呀: 不知道，我在学大数据开发
linux 基础篇
优快云-Ada助手: 运维需要掌握应用开发框架么？例如SpringBoot框架的各种配置？
linux Shell篇
优快云-Ada助手: 不知道 CS入门技能树是否可以帮到你：https://edu.youkuaiyun.com/skill/gml?utm_source=AI_act_gml

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。