Gvemis⁹-优快云博客

原创电商双11美妆数据分析项目

平均每单价格低的店铺的总销量、销售额都高于均价更高的。价格便宜是消费者考虑的最多的一个点。销量最高的相宜本草的均价就很低，同时它的销售额也是最高额的。而均价较高的类中，只有雅诗兰黛的销售额相对客观。对于一些中高端商品，可以考虑适当降价来吸引更多消费者。而一些低端商品可以考虑多推广来提高知名度获取销量。所有大类中，护肤品类的销量最高，其次是化妆品类。所有小类中，清洁类、补水类分别是销量的前二名。男士专用的商品中，护肤品销量最高，而化妆品类中主要是唇膏。并且妮维雅占据了男士专用的大部分市场。

2025-05-07 16:44:10 727

原创数据科学与计算

Seaborn 是一个建立在 Matplotlib 基础之上的 Python 数据可视化库，专注于绘制各种统计图形，以便更轻松地呈现和理解数据。Seaborn 的设计目标是简化统计数据可视化的过程，提供高级接口和美观的默认主题，使得用户能够通过少量的代码实现复杂的图形。

2025-04-30 19:25:54 257

原创大数据应用开发和项目实战（二）

已知五年级三班的同学中，喜欢篮球的同学占20%，喜欢乒乓球的同学占30%，喜欢羽毛球的同学占20%，喜欢足球的同学占18%，喜欢排球的同学占12%。plt.imshow()：用于在绘图区域显示一幅图像。imshow() 创建了一个 4x4 的二维 numpy 数组，并对其进行了三种不同的 imshow 图像展示。3.如果我们将 RGB 颜色的绿色和蓝色坐标的数组元素设置为 0，我们将得到红色的图像。可以使用 imread() 函数从一张图像文件中读取图像数据，并将其显示出来。pie()：绘制饼图。

2025-04-29 09:39:48 492

原创大数据应用开发和项目实战

Matplotlib 是 Python 的绘图库，它能让使用者很轻松地将数据图形化，并且提供多样化的输出格式Matplotlib 可以用来绘制各种静态，动态，交互式的图表。比如说散点图、柱状图等等。

2025-04-28 17:07:39 849

原创 Spark总结

概念：Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎SparkSpark 是一种由 Scala 语言开发的快速、通用、可扩展的大数据分析引擎Spark Core 中提供了 Spark 最基础与最核心的功能Spark SQL 是 Spark 用来操作结构化数据的组件。通过 Spark SQL，用户可以使用SQL 或者 Apache Hive 版本的 SQL 方言（HQL）来查询数据。

2025-04-27 17:00:43 1009

原创 Spark-Streaming（四）

给定一个由(键，事件)对构成的 DStream，并传递一个指定如何根据新的事件更新每个键对应状态的函数，它可以构建出一个新的 DStream，其内部数据为(键，状态) 对。➢ saveAsObjectFiles(prefix, [suffix])：以 Java 对象序列化的方式将 Stream 中的数据保存为SequenceFiles . 每一批次的存储文件名基于参数中的为"prefix-TIME_IN_MS[.suffix]".每一批次的存储文件名基于参数中的 prefix 和 suffix。

2025-04-27 15:55:35 887

原创 Spark-Streaming（三）

即使这些函数并没有在 DStream的 API 中暴露出来，通过该函数可以方便的扩展 Spark API。计算过程就是对当前批次的两个流中各自的 RDD 进行 join，与两个 RDD 的 join 效果相同。DStream 上的操作与 RDD 的类似，分为 Transformations（转换）和 Output Operations（输出）两种，此外转换操作中还有一些比较特殊的原语。无状态转化操作就是把简单的 RDD 转化操作应用到每个批次上，也就是转化 DStream 中的每一个 RDD。

2025-04-25 10:10:43 853

原创 Spark-Streaming(二)

ReceiverAPI：需要一个专门的 Executor 去接收数据，然后发送给其他的 Executor 做计算。存在的问题，接收数据的 Executor 和计算的 Executor 速度会有所不同，特别在接收数据的 Executor速度大于计算的 Executor 速度，会导致计算数据的节点内存溢出。DirectAPI：是由计算的 Executor 来主动消费 Kafka 的数据，速度由自身控制。读取数据时，分区间的数据是无序的，分区中的数据是有序。此命令会从日志文件中的最后的位置开始消费。

2025-04-24 09:30:16 532

原创 kafka的概念安装和spark的安装

Apache Kafka是分布式消息系统（消息中间件）。它最初由LinkedIn公司开发，之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的，分区的和可复制的提交日志服务。

2025-04-23 20:02:17 1215

原创 Spark-Streaming

Spark Streaming 用于流式数据的处理Spark Streaming 支持的数据输入源很多，例如：Kafka、Flume、Twitter等，以及和简单的 TCP 套接字等等数据输入后可以用 Spark 的高度抽象原语如：map、reduce、join、window 等进行运算。而结果也能保存在很多地方，如 HDFS，数据库等和 Spark 基于 RDD 的概念很相似，Spark Streaming 使用离散化流(discretized stream)作为抽象表示，叫作 DStream。

2025-04-22 09:59:00 1402

原创 Spark-SQL 四（实验）

将数据放到Spark-SQL/input目录下。将数据放到项目·的目录下。

2025-04-21 19:07:20 435

原创 Spark-SQL(三)

")：在"csv"、"jdbc"、"json"、"orc"、"parquet"和"textFile"格式下需要传入加载。")：指定保存的数据类型，包括"csv"、"jdbc"、"json"、"orc"、"parquet"和。")：指定加载的数据类型，包括"csv"、"jdbc"、"json"、"orc"、"parquet"和。")：在"csv"、"orc"、"parquet"和"textFile"格式下需要传入保存数据的路径。如果保存不同格式的数据，可以对不同的数据格式进行设定。是加载数据的通用方法。

2025-04-16 18:03:27 1281

原创 Spark-SQL（二）

UDF实例：运行结果UDAF（自定义聚合函数）强类型的 Dataset 和弱类型的 DataFrame 都提供了相关的聚合函数，如 count()，除此之外，用户可以设定自己的自定义聚合函数。Spark3.0之前我们使用的是UserDefinedAggregateFunction作为自定义聚合函数，从 Spark3.0 版本后可以统一采用强类型聚合函数 Aggregator。

2025-04-15 10:26:06 535

原创 Spark-SQL

Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块Shark 是伯克利实验室 Spark 生态环境的组件之一，是基于 Hive 所开发的工具，它修改了内存管理、物理计划、执行三个模块，并使之能运行在 Spark 引擎上Shark 的出现，使得 SQL-on-Hadoop 的性能比 Hive 有了 10-100 倍的提高Spark 团队重新开发了SparkSQL代码；

2025-04-14 16:53:49 1645

原创 Spark Core（三）

实例广播变量。

2025-04-11 10:56:55 1357

原创 Spark Core（二）

无论是将分区数多的RDD 转换为分区数少的 RDD，还是将分区数少的 RDD 转换为分区数多的 RDD，repartition操作都可以完成，因为无论如何都会经 shuffle 过程。排序后新产生的 RDD 的分区数与原 RDD 的分区数一致。将待处理的数据以分区为单位发送到计算节点进行处理，这里的处理是指可以进行任意的处理，哪怕是过滤数据，在处理时同时可以获取当前分区索引。当 spark 程序中，存在过多的小任务的时候，可以通过 coalesce 方法，收缩合并分区，减少分区的个数，减小任务调度成本。

2025-04-10 11:28:06 999

原创 Spark Core

RDD：弹性分布式数据集，是 Spark 中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合1）弹性存储的弹性：内存与磁盘的自动切换；容错的弹性：数据丢失可以自动恢复；计算的弹性：计算出错重试机制；分片的弹性：可根据需要重新分片。2）分布式：数据存储在大数据集群不同节点上3）数据集：RDD 封装了计算逻辑，并不保存数据4）数据抽象：RDD 是一个抽象类，需要子类具体实现。

2025-04-09 17:40:13 1293

原创 Window下spark的安装

配置好之后在cmd下运行代码 spark-shell 出现版本号及安装成功。解压缩到无中文无空格的路径中。新建添加spark的绝对路径。配置spark的环境变量。配置用户下的环境变量。

2025-04-08 11:07:03 382

原创 Scala总结（八）

按照指定的规则对集合的元素进行分组简化（归约）折叠实例：运行结果：Reduce方法Reduce 简化（归约）：通过指定的逻辑将集合中的数据进行聚合，从而减少数据，最终获取结果实例:运行结果：Fold 方法Fold 折叠：化简的一种特殊情况实例：运行结果：两个集合合并。

2025-04-08 09:55:59 509

原创 Scala总结(七)

arr1.toBuffer //不可变数组转可变数组arr2.toArray //可变数组转不可变数组实例：运行结果·：定义：val arr = Array.ofDim[Double](3,4)二维数组中有三个一维数组，每个一维数组中有四个元素实例：运行结果：List 默认为不可变集合创建一个 List（数据有顺序，可重复）List 增加数据集合间合并：将一个整体拆成一个一个的个体，称为扁平化空集合 Nil实例：运行结果：实例：运行结果：默认情况下， Scala 使用的是不可变集合，如果你想使用可变集合

2025-04-07 16:37:41 595

原创 Scala总结（六）

使用 type 关键字可以定义新的数据数据类型名称，本质上就是类型的一个别名实例1.Scala 的集合有三大类：序列 Seq、集Set、映射 Map，所有的集合都扩展自 Iterabl特质2.对于几乎所有的集合类，Scala 都同时提供了可变和不可变的版本，分别位于以下两个包不可变集合：scala.collection.immutable可变集合： scala.collection.mutable。

2025-04-03 11:05:38 1025

原创 Scala总结（五）

java类;如果类是 public 的，则必须和文件名一致。一般，一个.java 有一个 public 类注：Scala中没有public，一个.scala中可以写多个类。

2025-04-02 17:58:16 1012

原创 Scala总结（四)

无参，无返回值无参，有返回值有参，无返回值有参，有返回值多参，无返回值多参，有返回值案列。

2025-04-01 10:52:59 875

原创 Scala总结（三）

循环守卫，即循环保护式（也称条件判断式，守卫）。保护式为 true 则进入循环体内部，为false 则跳过，类似于continue基本语法实例：输出1~5中不等于3的值实例：输出1到10以内所有的奇数。

2025-03-31 17:12:40 699

原创 Scala总结（二）

scala和Java的语言不同在于java是强类型语言，Scala是弱类型语言在scala中val代表定义常量；var代表定义变量基本操作符scala的算术操作符与java的算术操作符也没有什么区别，比如+、-、*、/、%等，以及&、|、^、>>、<<等注：scala中没有提供++、--操作符，我们只能使用+和-，比如num = 1，num ++是错误的，必须写做num += 1字符串的插值操作Scala中的三个字符串插值器：s、f、raw在任何字符串前加上s，就可以直接在串中使用变量了。

2025-03-28 10:51:12 1408

原创 Scala总结（一）

程序文件的名称应该与对象名称完全匹配，保存文件时，应该保存它使用的对象名称（记住Scala是区分大小写），并追加".scala"为文件扩展名。Scala是静态编译的，所以速度会快很多，能融合到Hadoop生态圈：Hadoop现在是大数据事实标准，Spark并不是要取代Hadoop，而是要完善Hadoop生态。JVM语言大部分可能会想到Java，但Java做出来的API太丑，或者想实现一个优雅的API太费劲。这可以大幅减少名称冲突的可能性。Scala具备类型系统，通过编译时检查，保证代码的安全性和一致性。

2025-03-27 10:55:08 1067

空空如也

空空如也