自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 ortBy 排序:灵活控制排序规则

通过 lambda 表达式指定排序键,排序键可以是元素本身或计算后的结果。

2025-06-16 13:34:51 140

原创 四、1617转换操作链:组合使用提升数据处理效率

map、flatMap 和 filter 是 RDD 转换的核心操作,分别用于元素映射、扁平化展开和条件筛选。实际应用中,可通过组合这些操作构建复杂的数据处理流程,同时需注意惰性计算特性与性能优化,以充分发挥 Spark 的分布式计算优势。

2025-06-16 13:34:20 163

原创 三、1314filter 筛选:按条件保留元素

该操作保留偶数元素,丢弃奇数。的元素的新 RDD。

2025-06-16 13:33:26 221

原创 二、11flatMap 转换:扁平化元素集合

先对元素应用函数,再将结果扁平化,适用于需要合并子元素的场景。返回新 RDD,先对所有元素应用函数。

2025-06-16 13:32:50 177

原创 Spark RDD 转换操作实战:map、flatMap 与 filter 的核心应用

该操作生成新 RDD,每个元素为原元素加 1。应用于 RDD 每个元素,返回新 RDD。

2025-06-16 13:32:20 236

原创 二、23从文本文件创建 RDD:本地与 HDFS 数据源

该方法用于从 HDFS、本地文件系统或其他 Hadoop 支持的文件系统读取文本文件,返回字符串 RDD,文件需为 UTF-8 编码。可查看 RDD 内容,如。

2025-06-16 13:31:40 230

原创 一、通过 parallelize () 从集合创建 RDD

用于将本地集合分布式化为 RDD,若输入为范围数据,建议使用。,底层将集合数据分发到集群节点。

2025-06-16 13:31:08 177

原创 Pip 安装与镜像源配置

【代码】Pip 安装与镜像源配置。

2025-06-16 13:28:09 227

原创 Spark 功能测试与 SparkShell 交互

终端输出类似 “Pi is roughly 3.1412357061785308” 的结果,证明 Spark 基础功能正常。

2025-06-16 13:27:33 203

原创 Spark 安装与环境变量配置

【代码】Spark 安装与环境变量配置。

2025-06-16 13:26:57 275

原创 四、3943HDFS 与 YARN 服务启动与测试

【代码】四、3943HDFS 与 YARN 服务启动与测试。

2025-06-16 13:22:19 349

原创 三、32Hadoop 安装与核心组件配置

hadoop-env.sh:指定 JDK 路径 export JAVA_HOME=/usr/local/jdk🔶1-136🔶。yarn-env.sh:修改 JDK 路径 export JAVA_HOME=/usr/local/jdk。Hadoop 解压与权限设置。YARN 36配置与资源管理。HDFS 33配置文件修改。

2025-06-16 13:21:32 285

原创 一、JDK 安装与环境变量配置

执行 source /etc/profile 使配置生效,输入 java -version 验证版本(如 1.8.0_201)🔶1-112🔶。建议重启虚拟27机,确保环境变量全局生效。JDK 解压与软链接创建。环境变量配26置与验证。

2025-06-16 13:20:13 139

原创 二、10Ubuntu 系统基础配置与工具安装

【代码】二、10Ubuntu 系统基础配置与工具安装。

2025-06-16 13:18:54 193

原创 一、VMWare 搭建 Ubuntu 20.04 虚拟机详细步骤

启动 VMWare 后,通过 “文件→新建虚拟机” 打开向导,选择 “典型” 配置,指定 Ubuntu 系统镜像文件(如 ubuntu-20.04.4-desktop-amd64.iso)。关闭虚拟机后,编辑虚拟机设置,建议分配 4GB 内存和 2 个处理器核心(内存至少 2GB,避免运行 Hadoop、Spark 时内存不足)安装完成后,登录 Ubuntu 系统(用户名 / 密码:spark/spark),跳过初始设置中的网络账号、更新提示等,保持系统版本稳定。

2025-06-16 13:17:37 340

原创 一、Ubuntu 虚拟机的安装

选择 Ubuntu 系统 ISO 镜像(如 ubuntu-20.04.4-desktop-amd64.iso),设置用户名和密码为「spark」以便统一管理。分配磁盘空间为 60GB(按需增长),可自定义硬件配置(如 4GB 内存、2 核 CPU)以确保 Hadoop 和 Spark 运行稳定。启动 VMWare,点击「文件」→「新建虚拟机」,选择「典型」配置。安装完成后,登录界面输入用户名「spark」和密码「spark」。优化任务栏:右键移除不常用图标,固定终端图标以便后续操作。

2025-06-15 12:33:32 181

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除