- 博客(9)
- 收藏
- 关注
原创 PySpark中如何构建RDD算子和RDD算子的相关操作
整个Spark所有的RDD的算子文档: https://spark.apache.org/docs/3.1.2/api/python/reference/pyspark.html#rdd-apis。 在整个RDD算子中, 主要可以将算子分为两大类: transformation(转换算子) 和 action(动作算子) 在spark中, 将支持传递函数的或者说具有一些特殊功能的方法或者函数称为算子。值类型的算子: 主要是针对value进行处理相关的算子。map和mapPartitions。
2024-08-17 12:57:15
667
原创 Spark 程序与PySpark交互流程及Spark-Submit相关参数说明
spark-submit 这个命令 是我们spark提供的一个专门用于提交spark程序的客户端, 可以将spark程序提交到各种资源调度平台上: 比如说 local(本地), spark集群,yarn集群, 云上调度平台(k8s …指的在将Spark任务提交到集群(YARN, Spark集群为主)的时候,提供两种提交部署方案: client模式 , cluster模式。Spark On Yarn的本质: 指的将Spark程序提交到Yarn集群中, 通过yarn进行统一的调度运行操作。
2024-08-10 20:02:38
547
原创 python中列表和集合的区别及分别在什么情景下使用
Python 中的列表(List)和集合(Set)是两种不同的数据结构,它们各自有不同的特性和用途。有序:列表中的元素是有序的,这意味着元素的插入顺序会被保留。集合:当你需要无序、不重复、进行集合运算的数据结构时使用。选择使用列表还是集合,主要取决于你的具体需求和数据的特性。无序:集合中的元素是无序的,元素的插入顺序不会被保留。列表:当你需要有序、可重复、可索引的数据结构时使用。不重复:集合中的元素是唯一的,自动去除重复元素。可重复:列表中的元素可以重复出现。当你需要去除列表中的重复元素时。
2024-07-23 21:29:39
559
原创 Apache Hive--远程模式安装部署--配置文件与初始化
3、上传Mysql jdbc驱动到Hive安装包的Lib目录下。0、解决Hive与Hadoop之间guava版本差异。5、在hdfs创建hive存储目录(可选)4、手动执行命令初始化Hive的元数据。安装Hive (选择node1安装)
2024-07-04 21:31:49
192
原创 Apache Hadoop--集群部署
Doug Cutting 看到他儿子在牙牙学语时,抱着黄色小象,亲昵的叫hadoop,他灵光一闪,就把这技术命名为 Hadoop,而且还用了黄色小象作为标示 Logo。官网文档:https://hadoop.apache.org/docs/r3.3.0/知识点11:Apache Hadoop–集群部署–namenode format操作。知识点05:Apache Hadoop–集群部署–Hadoop安装部署模式。知识点10:Apache Hadoop–集群部署–scp同步、环境变量配置。
2024-06-17 15:53:56
1124
原创 大数据集群环境搭建--ssh免密登录
在进行集群操作的时候 需要从一台机器ssh登录到其他机器进行操作 默认情况下需要密码。ssh-keygen 一顿回车 在当前用户的home下生成公钥私钥 隐藏文件。技术:SSH方式2:免密登录功能。#实现node1----->node2。需求:能否实现免密ssh登录。在node1生成公钥私钥。copy公钥给node2。
2024-06-02 10:05:15
397
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人