自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 DataFrame的构成

【代码】DataFrame的构成。

2025-02-22 22:34:47 166

原创 Spark-SparkSQL模块

1.构建大规模结构化数据计算2.二维表数据结构,与pandas-DataFrame结构相同,且只能二维表形式存储。与RDD相比,因此更加适合SQL进行处理。3.三类数据抽象对象:SchemaRDD对象(1.0版本已放弃),Dataset对象,DaTaFrame对象。4.sparkSession,用于sparksql编程作为入口对象。

2025-02-16 12:32:41 516

原创 Spark的任务调度

DAG调度器:将逻辑的DAG图进行处理,基于宽依赖和窄依赖,划分Task任务,task任务是DAG图划分区,划分管道之后的产物。Task任务之间的交互。有任务之间的并行与交互,任务无交互的并行,有交互在同一个executer。task调度器:间接下达任务DAG调度器指令,监控管理。

2025-02-16 11:41:50 87

原创 RDD的依赖关系构建DAG

一个action产生一个job,因此,产生一个DAG。RDD变换的整个过程就是DAG。

2025-02-15 22:37:20 121

原创 spark-广播变量

本地集合对象和分布式集合对象(RDD)进行关联的时候,需要将本地集合对象广播变量。每一个进程executor,有多个线程分区,进程内的线程数据共享。当本地数据极大的时候,可以使用广播变量,使得减少内存。本地的数据传输到集群上,会发到每一个线程,每一个分区。因此,给每一个线程发送数据会导致数据占用,浪费资源。所有,出现了广播变量,使得只发送给进程。

2025-02-15 22:06:54 283

原创 spark常见的RDD算子-reduceByKey

用于对键值对(Key-Value)类型的 RDD 进行聚合操作。它的作用是将具有相同键(Key)的值(Value)合并在一起,通过一个指定的函数进行累加或计算。是一个高效的聚合操作,适用于对键值对进行归并计算。的主要作用是对 RDD 中的键值对按照键进行分组,并对每个键对应的值进行归并操作。:将所有节点的归并结果汇总到一起,最终得到每个键的最终结果。:在每个节点上,对本地的键值对进行归并操作,减少数据量。是一个函数,用于对具有相同键的值进行归并操作。对每个键的值进行归并操作,减少了数据量。

2025-02-15 19:20:04 344

原创 python中常见的生成器内容

在 Python 中,生成器(Generator)是一种特殊的迭代器,可以通过函数中的yield关键字轻松创建。:生成器不会一次性计算出所有的值,而是在需要时逐个生成值。:因为不会一次性存储所有值,所以在处理大数据时效率很高。

2025-02-10 21:24:04 307

原创 RDD的作用和特点

特性:

2025-02-08 20:53:24 175

原创 spark集群角色,python on spark执行原理

3.driver:单个spark任务的管理者。管理executor的任务执行和任务分解分配,类似yarn的applicationmaster;4.executor:具体干活的进程,spark的工作任务(task)都由executor来负责执行。2.worker:单个机器的管家,负责在单个服务器上提供运行容器,管理当前机器的资源。1.master:集群大管家,整个集群的资源管理和分配。python on spark执行原理。python on spark执行原理。

2025-02-08 20:09:59 116

原创 HDFS的9870端口与8020端口

v1:9870:用于访问 HDFS 的 Web UI,主要用于监控和管理。:用于 HDFS 客户端与 NameNode 之间的 RPC 通信,用于执行文件系统的操作。如果你在使用 HDFS 时遇到问题,可以检查这两个端口是否正常工作,以及 HDFS 服务是否已启动。

2025-02-08 18:52:54 478

原创 类库与框架、在window(pycharm)搭建pyspark库,连接Linux。

类库:一堆别人写好的代码,可以直接导入使用,pandas框架:可以独立运行,软件产品,如sparkpandas用于:小规模数据集spark用于:大规模数据集。

2025-02-07 21:45:28 237

原创 spark集群部署-SPARK ON YARN

master角色由yarn的resourcemanager担任(集群资源管家)。worker角色由nodemanager担任(单机资源管家)。driver运行在yarn容器内或者提交任务的客户端过程内。干活的executor运行在yarn提供的容器内。

2025-02-07 18:10:55 334

原创 yarn集群部署下client模式与cluster模式的区别

cluster模式输出结果不在客户端,通信成本高。二、client推荐学习测试使用,生产不推荐。cluster模式是运行在yarn集群上面。client客户端时运行在client上。client通信成本低,输出结果在客户端。cluster模式是生产模式使用。:driver程序运行在哪里。

2025-01-26 23:55:10 229

原创 spark-pyspark配置-本地配置

spark-python,本地模式配置详细版

2025-01-17 18:33:11 840 1

原创 spark-pyspark-standalone部署模式全过程

1.软件在Linux安装地址默认/export/server,包括anaconda与spark,创建目录指令:mkdirexport,Hadoop安装地址为本人地址(文章中代码的Hadoop地址要自行修改成自己的)1).hadoop(hdfs,yarn集群)、java为spark配置之前默认配置完毕,地址应为自己的地址。v1虚拟机运行:spark的master进程和1个work进程。2).第八行为自己的集群名字,例如:本人为v1,v2,v3。v2虚拟机运行:spark的1个work进程。

2025-01-13 12:47:41 258

原创 spark-Hadoop3与spark-without Hadoop的区别,下载安装错了怎么办?

如果你的环境中已经安装了 Hadoop,并且你希望使用现有的 Hadoop 集群资源,或者你想要更灵活地管理 Hadoop 和 Spark 的版本和配置,这个版本会更加适合。即使下载了带有 Hadoop 的 Spark 安装包,可以在环境变量中指定你原来 Hadoop 的地址,让 Spark 使用你已有的 Hadoop 环境。:如果你的环境中没有预先安装 Hadoop,或者你希望在一个独立的环境中使用 Spark 而不依赖于外部的 Hadoop 安装,这个版本是一个不错的选择。

2025-01-13 12:08:55 665

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除