哈哈哈哈q-优快云博客

原创 DataFrame的构成

【代码】DataFrame的构成。

2025-02-22 22:34:47 166

原创 Spark-SparkSQL模块

1.构建大规模结构化数据计算2.二维表数据结构，与pandas-DataFrame结构相同，且只能二维表形式存储。与RDD相比，因此更加适合SQL进行处理。3.三类数据抽象对象：SchemaRDD对象(1.0版本已放弃)，Dataset对象，DaTaFrame对象。4.sparkSession，用于sparksql编程作为入口对象。

2025-02-16 12:32:41 516

原创 Spark的任务调度

DAG调度器：将逻辑的DAG图进行处理，基于宽依赖和窄依赖，划分Task任务，task任务是DAG图划分区，划分管道之后的产物。Task任务之间的交互。有任务之间的并行与交互，任务无交互的并行，有交互在同一个executer。task调度器：间接下达任务DAG调度器指令，监控管理。

2025-02-16 11:41:50 87

原创 RDD的依赖关系构建DAG

一个action产生一个job，因此，产生一个DAG。RDD变换的整个过程就是DAG。

2025-02-15 22:37:20 121

原创 spark-广播变量

本地集合对象和分布式集合对象（RDD）进行关联的时候，需要将本地集合对象广播变量。每一个进程executor，有多个线程分区，进程内的线程数据共享。当本地数据极大的时候，可以使用广播变量，使得减少内存。本地的数据传输到集群上，会发到每一个线程，每一个分区。因此，给每一个线程发送数据会导致数据占用，浪费资源。所有，出现了广播变量，使得只发送给进程。

2025-02-15 22:06:54 283

用于对键值对（Key-Value）类型的 RDD 进行聚合操作。它的作用是将具有相同键（Key）的值（Value）合并在一起，通过一个指定的函数进行累加或计算。是一个高效的聚合操作，适用于对键值对进行归并计算。的主要作用是对 RDD 中的键值对按照键进行分组，并对每个键对应的值进行归并操作。：将所有节点的归并结果汇总到一起，最终得到每个键的最终结果。：在每个节点上，对本地的键值对进行归并操作，减少数据量。是一个函数，用于对具有相同键的值进行归并操作。对每个键的值进行归并操作，减少了数据量。

2025-02-15 19:20:04 344

原创 python中常见的生成器内容

在 Python 中，生成器（Generator）是一种特殊的迭代器，可以通过函数中的yield关键字轻松创建。：生成器不会一次性计算出所有的值，而是在需要时逐个生成值。：因为不会一次性存储所有值，所以在处理大数据时效率很高。

2025-02-10 21:24:04 307

原创 RDD的作用和特点

特性：

2025-02-08 20:53:24 175

原创 spark集群角色，python on spark执行原理

3.driver：单个spark任务的管理者。管理executor的任务执行和任务分解分配，类似yarn的applicationmaster；4.executor：具体干活的进程，spark的工作任务（task）都由executor来负责执行。2.worker：单个机器的管家，负责在单个服务器上提供运行容器，管理当前机器的资源。1.master：集群大管家，整个集群的资源管理和分配。python on spark执行原理。python on spark执行原理。

2025-02-08 20:09:59 116

原创 HDFS的9870端口与8020端口

v1:9870：用于访问 HDFS 的 Web UI，主要用于监控和管理。：用于 HDFS 客户端与 NameNode 之间的 RPC 通信，用于执行文件系统的操作。如果你在使用 HDFS 时遇到问题，可以检查这两个端口是否正常工作，以及 HDFS 服务是否已启动。

2025-02-08 18:52:54 478

原创类库与框架、在window（pycharm）搭建pyspark库，连接Linux。

类库：一堆别人写好的代码，可以直接导入使用，pandas框架：可以独立运行，软件产品，如sparkpandas用于：小规模数据集spark用于：大规模数据集。

2025-02-07 21:45:28 237

原创 spark集群部署-SPARK ON YARN

master角色由yarn的resourcemanager担任（集群资源管家）。worker角色由nodemanager担任（单机资源管家）。driver运行在yarn容器内或者提交任务的客户端过程内。干活的executor运行在yarn提供的容器内。

2025-02-07 18:10:55 334

原创 yarn集群部署下client模式与cluster模式的区别

cluster模式输出结果不在客户端，通信成本高。二、client推荐学习测试使用，生产不推荐。cluster模式是运行在yarn集群上面。client客户端时运行在client上。client通信成本低，输出结果在客户端。cluster模式是生产模式使用。：driver程序运行在哪里。

2025-01-26 23:55:10 229

原创 spark-pyspark配置-本地配置

spark-python，本地模式配置详细版

2025-01-17 18:33:11 840 1

原创 spark-pyspark-standalone部署模式全过程

1.软件在Linux安装地址默认/export/server，包括anaconda与spark，创建目录指令：mkdirexport，Hadoop安装地址为本人地址（文章中代码的Hadoop地址要自行修改成自己的）1）.hadoop（hdfs，yarn集群）、java为spark配置之前默认配置完毕，地址应为自己的地址。v1虚拟机运行：spark的master进程和1个work进程。2）.第八行为自己的集群名字，例如：本人为v1，v2，v3。v2虚拟机运行：spark的1个work进程。

2025-01-13 12:47:41 258

原创 spark-Hadoop3与spark-without Hadoop的区别，下载安装错了怎么办？

如果你的环境中已经安装了 Hadoop，并且你希望使用现有的 Hadoop 集群资源，或者你想要更灵活地管理 Hadoop 和 Spark 的版本和配置，这个版本会更加适合。即使下载了带有 Hadoop 的 Spark 安装包，可以在环境变量中指定你原来 Hadoop 的地址，让 Spark 使用你已有的 Hadoop 环境。：如果你的环境中没有预先安装 Hadoop，或者你希望在一个独立的环境中使用 Spark 而不依赖于外部的 Hadoop 安装，这个版本是一个不错的选择。

2025-01-13 12:08:55 665

m0_74230025的博客