Spark MLlib Statistics统计

最新推荐文章于 2023-12-11 09:36:51 发布

原创

最新推荐文章于 2023-12-11 09:36:51 发布 · 9.3k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#Spark #mllib #Statistics

本文介绍了Spark MLlib的统计模块，包括列统计汇总（最大值、最小值、平均值、方差等）、相关系数（Pearson和Spearman）的计算，以及Pearson卡方检验的应用。通过实例展示了如何使用Spark进行这些统计分析。

1、Spark MLlib Statistics统计

Spark Mllib 统计模块代码结构如下：

1.1 列统计汇总

计算每列最大值、最小值、平均值、方差值、L1范数、L2范数。

//读取数据，转换成RDD[Vector]类型

val data_path = "/home/jb-huangmeiling/sample_stat.txt"

val data = sc.textFile(data_path).map(_.split("\t")).map(f => f.map(f => f.toDouble))

val data1 = data.map(f => Vectors.dense(f))

//计算每列最大值、最小值、平均值、方差值、L1范数、L2范数

val stat1 = Statistics.colStats(data1)

stat1.max

stat1.min

stat1.mean

stat1.variance

stat1.normL1

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sunbow0

关注关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

spark(59) -- SparkMllib -- 基于SparkMllib的统计特征实践

erainm

10-17

275

1. SparkMllib的SummaryStatistic摘要统计 2. SparkMllib的Correlation相关系数详解及实战 3. SparkMllib的HypothesisTesting原理及实战 4. SparkMllib的随机数生成时间

Spark MLlib 特征工程系列—相关性计算

最新发布

08-15

1万+

假设检验(hypothesis testing)，又称统计假设检验，是一种统计方法用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法，从而判断样本数据是否支持某个假设。显著性检验是假设检验中最常用的一种方法，也是一种最基本的统计推断形式，其基本原理是先对总体的特征做出某种假设，然后通过抽样研究的统计推理，对此假设应该被拒绝还是接受做出推断。计算两个数据序列之间的相关性是统计学中的一项常见操作。可用的度量是列的最大值、最小值、平均值、总和、方差、标准差和非零个数，以及总计数。

参与评论您还未登录，请先登录后发表或查看评论

2 Spark机器学习 spark MLlib Statistics统计入门

tianyaleixiaowu的专栏

09-18

2447

spark中比较核心的是RDD操作，主要用于对数据的处理、转换。在机器学习中，数据的处理也非常重要，矩阵、统计什么的都很常见。这一篇看一下Statistics统计相关的操作。本系列文章是边看书学边写，书是看的黄美灵的spark mllib机器学习。我会抽取比较靠谱的有用的知识写成文章。 MLlib Statistics是基础统计模块，能对RDD数据进行统计，包括汇总统计、相关系数、分层抽...

Spark MLlib统计操作

LMR的博客

06-07

7890

package mllib import org.apache.spark.mllib.linalg import org.apache.spark.mllib.linalg.{Matrix, Vectors} import org.apache.spark.mllib.stat.{MultivariateStatisticalSummary, Statistics} import org....

Spark ML（2）：常规统计（统计汇总、相关性分析、假设检验）

小蚯蚓的博客

05-11

1881

一、实现功能常规统计方法，可以在作进一步处理之前，对整体数据集有一个理性的了解。对后续处理，可以提高效率，以及准确性。二、统计汇总 1.功能在使用spark机器学习训练前，使用统计汇总函数，可以大致了解数据集总体情况2.参考：官网 http://spark.apache.org/docs/2.1.0/mllib-statistics.html 官方实例： *** import or...

Spark MLlib随笔--Statistics类（1）

Fishman113的博客

12-29

426

Statistics类数理统计中，基本统计量包括数据的平均值、方差，这是一组求数据统计量的基本内容。在MLlib中，统计量的计算主要用到Statistics类库方法 colStats:以列为基础计算统计量的基本数据 corr:对两个数据集进行相关系数计算，根据参量的不同，返回值格式有差异 import org.apache.spark.mllib.linalg.Vectors import...

Spark+MLlib机器学习实践+,王晓华著

12-22

Spark+MLlib机器学习实践+,王晓华著完整版，自己学习很实用

Spark MLlib 机器学习算法库

一米八多的瑞兹的博客

05-17

3690

✎ 学习目标了解什么是机器学习及Spark MLlib的基本使用方式掌握机器学习的工作流程了解电影推荐系统的构建流程理解MLlib的数据类型概要 MLlib是Spark提供的处理机器学习方面的功能库，该库包含了许多机器学习算法，开发者可以不需要深入了解机器学习算法就能开发出相关程序。初识机器学习什么是实时计算机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机如何模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使

spark mllib基本统计实例

06-10

好的，以下是一个使用Spark MLlib进行基本统计分析的实例：首先，我们需要加载SparkSession和数据集： ```python from pyspark.sql import SparkSession spark = SparkSession.builder.appName('basic_...

离线轻量级大数据平台Spark之MLib机器学习库SVM实例

医疗影像检索

11-07

2974

支持向量机，因其英文名为support vector machine，故一般简称SVM，通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。 http://www.dataguru.cn/thread-371987-1-1.html 参考该网站理解SVM基础数学原理。依据距离计算分类的思想，适用于

Spark计算相关性系数（皮尔森、斯皮尔曼、卡方检验）

无

10-19

6746

皮尔森、斯皮尔曼（pearson spearman）： import spark.implicits._ import org.apache.spark.mllib.stat.Statistics import spark.sql val df = sql(s"select * from xxxx ") val columns = List("...

scala-MLlib官方文档---spark.ml package--basic Statistics+Data source

pt798633929的博客

01-19

318

一、basic Statistics 1、Correlation 2、Hypothesis testing 3、Summarizer

Spark MLlib分布式机器学习源码分析：基本统计

大数据之眸

03-21

553

Spark是一个极为优秀的大数据框架，在大数据批处理上基本无人能敌，流处理上也有一席之地，机器学习则是当前正火热AI人工智能的驱动引擎，在大数据场景下如何发挥AI技术成为优秀的大数据挖掘工程师必备技能。本文结合机器学习思想与Spark框架代码结构来实现分布式机器学习过程，希望与大家一起学习进步～目录 1.概括统计 2.相关性系数 3.假设检验 4.随机数据生成 ...

[机器学习、Spark]Spark MLlib实现数据基本统计

m0_57781407的博客

10-22

3748

MLlib提供了很多统计方法，包含摘要统计、相关统计、分层抽样、假设检验、随机数生成等统计方法，利用这些统计方法可帮助用户更好地对结果数据进行处理和分析 MLlib三个核心功能： 1.实用程序：统计方法，如描述性统计、卡方检验、线性代数、模型评估方法等 2.数据准备：特征提取、变换、分类特征的散列和一些自然语言处理方法 3.机器学习方法：实现了一些流行和高级的回归，分类和聚类算法

spark sample

qq_43192537的博客

11-28

731

spark sample

spark：从表中采样（随机选取）一定数量的行

不负长风

12-11

2400

Spark会对表的每个分区进行采样，并根据采样结果计算总体的采样比例，然后从每个分区中选择相应比例的数据。使用一种伪随机函数或随机算法来选择采样的数据。然后，根据指定的采样比例或行数，从随机数序列中选择相应数量的随机数，并返回与这些随机数关联的行。通过使用随机算法和利用分布和分区信息来提供高效的随机采样功能。这种方法可以在大型数据集上提供快速的近似查询结果，同时减少了数据的传输和处理开销。是一种用于在数据库中进行随机采样的方法。它可以通过不同的策略从表中选择一部分数据进行查询，而无需扫描整个表。

Spark MLlib学习（1）--基本统计

gan785160627的博客

08-03

722

Correlation 支持的方法有Pearson相关系数和spearman相关系数。 Pearson相关系数皮尔逊相关系数用来衡量定距变量的线性关系，取值范围是-1到1，接近0的变量相关性小，接近1或-1的变量相关性大。 spearman相关系数斯皮尔曼相关性系数，通常也叫斯皮尔曼秩相关系数。“秩”，可以理解成就是一种顺序或者排序，那么它就是根据原始数据的排序位置进...

Spark ML基本算法【ChiSquareTest卡方检验】

踏雪无痕

07-02

1717

一.简介假设检验是一种强大的统计工具，可用来确定结果是否具有统计学意义，以及该结果是否偶然发生。spark.ml当前支持Pearson的卡方测试独立性。 ChiSquareTest针对标签上的每个功能进行Pearson的独立性测试。对于每个要素，（要素，标签）对将转换为列联矩阵，针对该列矩阵计算卡方统计量。所有标签和特征值必须是分类的。二.代码实战 package spark2.ml import org.apache.log4j.{Level, Logger} import org.apache.s

spark MLlib BasicStatistics 统计学基础

weixin_30794491的博客

04-04

164

一， jar依赖，jsc创建。 package ML.BasicStatistics; import com.google.common.collect.Lists; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaDoubleRDD; import org.apache.spark....