461K.-优快云博客

原创写spark程序数据计算（数据库的计算，求和，汇总之类的）连接mysql数据库，写入计算结果

mode(SaveMode.Overwrite) // 根据需求选择保存模式。// 1. 读取数据源（这里使用CSV示例，实际可以是Hive、JDBC等）.master("local[*]") // 生产环境需修改为集群地址。// 4. 将结果写入数据库（这里以MySQL为例）// 创建SparkSession。// 3. 显示计算结果（调试用）// 停止SparkSession。// 2. 数据转换与计算。

2025-05-18 21:06:39 669

原创 sparkSQL读入csv文件写入mysql

mysql的字符集问题。“让字符集认识中文”

2025-05-18 20:00:25 449

原创连接mysql数据库

上传并解压mysql-5.7.28-1.el7.x86_64.rpm-bundle.tar （/opt/software)解压的命令是：tatar -xf mysql-5.7.28-1.el7.x86_64.rpm-bundle.tar。请注意，这里并没没有单独添加spark_core的依赖，因为在spark-sql中已经包含了spark_core。使用的命令是： mysql --initialize --user=mysql。命令：rpm -e --nodeps mariadb-libs。

2025-05-18 19:42:30 919

原创 RDD-数据清洗

一.思路二.代码示例三.精进。

2025-05-18 19:11:20 274

原创 spark-配置yarn模式

解压的命令是：tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/module。1.上传并解压spark-3.1.1-bin-hadoop3.2.tgz （/opt/software)解压之后的目录为spark-yarn（原为spark-3.1.1-bin-hadoop3.2.tgz）运行： ./start-all.sh 和 ./start-history-server.sh。进入/opt/module/spark-yarn/sbin。

2025-05-18 17:16:40 780

原创 idea编写maven项目

在IDEA中选择 Create New Project > Maven > 勾选Create from archetype > 选择 maven-archetype-quickstart ，点击下一步。-- Spark SQL（按需添加其他模块，如spark-streaming） -->-- Maven打包插件（可选，用于生成可执行JAR） -->-- Scala编译插件 -->-- Scala语言依赖 -->-- 声明Scala插件 -->-- 插件配置 -->二、创建Maven项目。

2025-05-13 14:35:02 818

原创 RDD运行过程

2025-05-13 12:39:46 104

原创 spark-shell中写代码

2025-05-13 12:38:31 145

原创 RDD基本介绍

2025-05-13 12:26:22 414

原创打包spark代码在集群中运行

2025-05-13 12:20:27 98

原创 idea写spark程序

2025-05-13 12:15:39 85

原创 spark-配置yarn模式

2025-05-13 12:13:22 137

原创 tool接口-代码实现

代码实现。

2025-05-12 13:00:50 96

原创 tool接口-问题说明

tool接口。

2025-05-12 12:58:51 131

原创设置不同的任务队列

设置不同的任务队列。

2025-05-12 12:56:43 119

原创 yarn基本介绍

yarn。

2025-05-12 12:55:04 455

原创数据压缩spark

理解。

2025-05-12 11:36:01 101

原创 hadoop的序列化和反序列化

理解。

2025-05-12 11:34:39 140

原创序列化与反序列化

理解。

2025-05-12 11:19:29 129

原创自定义分区器

理解。

2025-05-12 11:17:54 129

原创 mapreduce打包运行

理解。

2025-05-12 11:15:59 114

原创 mapreduce补充

理解。

2025-05-12 11:14:17 101

原创 mapreduce-理解map-reduce

2025-05-12 11:13:06 101

原创 mapreduce-wordcount程序补充

2.maprerduce:计算。1.hdfs:文件存取。

2025-05-12 11:09:38 310

原创 Linux 配置并克隆虚拟机

静待。

2025-05-12 11:04:16 175

原创 java-hdfs-API-设置副本数量

主要内容：副本数量默认为3个，我们把它改成两个。

2025-05-12 11:03:29 156

原创 hdfs-客户端操作-文件上传

总结：获取hadoop集群的文件系统和关闭资源是一个固定的写法，重点在于路径。主要内容：在一个新目录里上传文件。去浏览器看上传是否成功。

2025-05-12 10:50:35 230

原创 spark与hadoop的区别

六.spark的运行模式。五.spark内置模块。

2025-04-21 09:44:28 373

原创案例-流量统计

1.建一个data目录，在data下建log.txt文件。2.在com.example.flow下建四个Java类。输入手机号码上行流量下行流量。

2025-04-08 17:45:12 150

原创 MapReduce的工作原理

以下是其工作原理的详细解析。- 调用用户编写的 `map()` 函数，将输入键值对（如 `<行号, 行内容>`）转换为中间键值对（如 `<单词, 1>`）。本地执行类似 Reduce 的合并操作（如对 `<单词, [1,1]>` 合并为 `<单词, 2>`），减少网络传输量。Reduce 任务将来自不同 Map 的同一分区数据合并，按键分组（如 `<单词, [1,1,1]>`）。Reduce 对每个单词的 `[1,1,...]` 求和，得到 `<word, total_count>`。

2025-03-31 20:16:32 576

原创 hadoop集群的常用命令

hdfs dfs -rm -r /hdfs/path/directory # 递归删除目录。hdfs dfs -setrep -w 3 /path/file # 修改副本数为 3。hdfs dfs -rm /hdfs/path/file # 删除文件。hdfs dfs -du -h /path # 查看目录大小。hdfs dfs -df -h # 查看整体空间。- **检查 HDFS 空间使用**- **查看运行中的应用列表**- **复制/移动文件**- **查看文件内容**

2025-03-31 20:07:15 389