- 博客(16)
- 收藏
- 关注
原创 四、1617转换操作链:组合使用提升数据处理效率
map、flatMap 和 filter 是 RDD 转换的核心操作,分别用于元素映射、扁平化展开和条件筛选。实际应用中,可通过组合这些操作构建复杂的数据处理流程,同时需注意惰性计算特性与性能优化,以充分发挥 Spark 的分布式计算优势。
2025-06-16 13:34:20
163
原创 二、11flatMap 转换:扁平化元素集合
先对元素应用函数,再将结果扁平化,适用于需要合并子元素的场景。返回新 RDD,先对所有元素应用函数。
2025-06-16 13:32:50
177
原创 Spark RDD 转换操作实战:map、flatMap 与 filter 的核心应用
该操作生成新 RDD,每个元素为原元素加 1。应用于 RDD 每个元素,返回新 RDD。
2025-06-16 13:32:20
236
原创 二、23从文本文件创建 RDD:本地与 HDFS 数据源
该方法用于从 HDFS、本地文件系统或其他 Hadoop 支持的文件系统读取文本文件,返回字符串 RDD,文件需为 UTF-8 编码。可查看 RDD 内容,如。
2025-06-16 13:31:40
230
原创 一、通过 parallelize () 从集合创建 RDD
用于将本地集合分布式化为 RDD,若输入为范围数据,建议使用。,底层将集合数据分发到集群节点。
2025-06-16 13:31:08
177
原创 Spark 功能测试与 SparkShell 交互
终端输出类似 “Pi is roughly 3.1412357061785308” 的结果,证明 Spark 基础功能正常。
2025-06-16 13:27:33
203
原创 三、32Hadoop 安装与核心组件配置
hadoop-env.sh:指定 JDK 路径 export JAVA_HOME=/usr/local/jdk🔶1-136🔶。yarn-env.sh:修改 JDK 路径 export JAVA_HOME=/usr/local/jdk。Hadoop 解压与权限设置。YARN 36配置与资源管理。HDFS 33配置文件修改。
2025-06-16 13:21:32
285
原创 一、JDK 安装与环境变量配置
执行 source /etc/profile 使配置生效,输入 java -version 验证版本(如 1.8.0_201)🔶1-112🔶。建议重启虚拟27机,确保环境变量全局生效。JDK 解压与软链接创建。环境变量配26置与验证。
2025-06-16 13:20:13
139
原创 一、VMWare 搭建 Ubuntu 20.04 虚拟机详细步骤
启动 VMWare 后,通过 “文件→新建虚拟机” 打开向导,选择 “典型” 配置,指定 Ubuntu 系统镜像文件(如 ubuntu-20.04.4-desktop-amd64.iso)。关闭虚拟机后,编辑虚拟机设置,建议分配 4GB 内存和 2 个处理器核心(内存至少 2GB,避免运行 Hadoop、Spark 时内存不足)安装完成后,登录 Ubuntu 系统(用户名 / 密码:spark/spark),跳过初始设置中的网络账号、更新提示等,保持系统版本稳定。
2025-06-16 13:17:37
340
原创 一、Ubuntu 虚拟机的安装
选择 Ubuntu 系统 ISO 镜像(如 ubuntu-20.04.4-desktop-amd64.iso),设置用户名和密码为「spark」以便统一管理。分配磁盘空间为 60GB(按需增长),可自定义硬件配置(如 4GB 内存、2 核 CPU)以确保 Hadoop 和 Spark 运行稳定。启动 VMWare,点击「文件」→「新建虚拟机」,选择「典型」配置。安装完成后,登录界面输入用户名「spark」和密码「spark」。优化任务栏:右键移除不常用图标,固定终端图标以便后续操作。
2025-06-15 12:33:32
181
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅