自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(73)
  • 收藏
  • 关注

原创 写spark程序数据计算( 数据库的计算,求和,汇总之类的)连接mysql数据库,写入计算结果

mode(SaveMode.Overwrite) // 根据需求选择保存模式。// 1. 读取数据源(这里使用CSV示例,实际可以是Hive、JDBC等).master("local[*]") // 生产环境需修改为集群地址。// 4. 将结果写入数据库(这里以MySQL为例)// 创建SparkSession。// 3. 显示计算结果(调试用)// 停止SparkSession。// 2. 数据转换与计算。

2025-05-18 21:06:39 669

原创 sparkSQL读入csv文件写入mysql

mysql的字符集问题。“让字符集认识中文”

2025-05-18 20:00:25 449

原创 连接mysql数据库

上传并解压mysql-5.7.28-1.el7.x86_64.rpm-bundle.tar (/opt/software)解压的命令是:tatar -xf mysql-5.7.28-1.el7.x86_64.rpm-bundle.tar。请注意,这里并没没有单独添加spark_core的依赖,因为在spark-sql中已经包含了spark_core。使用的命令是: mysql --initialize --user=mysql。命令:rpm -e --nodeps mariadb-libs。

2025-05-18 19:42:30 919

原创 RDD-数据清洗

一.思路二.代码示例三.精进。

2025-05-18 19:11:20 274

原创 spark-配置yarn模式

解压的命令是:tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/module。1.上传并解压spark-3.1.1-bin-hadoop3.2.tgz (/opt/software)解压之后的目录为spark-yarn(原为spark-3.1.1-bin-hadoop3.2.tgz)运行: ./start-all.sh 和 ./start-history-server.sh。进入/opt/module/spark-yarn/sbin。

2025-05-18 17:16:40 780

原创 idea编写maven项目

在IDEA中选择 Create New Project > Maven > 勾选Create from archetype > 选择 maven-archetype-quickstart ,点击下一步。-- Spark SQL(按需添加其他模块,如spark-streaming) -->-- Maven打包插件(可选,用于生成可执行JAR) -->-- Scala编译插件 -->-- Scala语言依赖 -->-- 声明Scala插件 -->-- 插件配置 -->二、创建Maven项目。

2025-05-13 14:35:02 818

原创 RDD运行过程

2025-05-13 12:39:46 104

原创 spark-shell中写代码

2025-05-13 12:38:31 145

原创 RDD基本介绍

2025-05-13 12:26:22 414

原创 打包spark代码在集群中运行

2025-05-13 12:20:27 98

原创 idea写spark程序

2025-05-13 12:15:39 85

原创 spark-配置yarn模式

2025-05-13 12:13:22 137

原创 tool接口-代码实现

代码实现。

2025-05-12 13:00:50 96

原创 tool接口-问题说明

tool接口。

2025-05-12 12:58:51 131

原创 设置不同的任务队列

设置不同的任务队列。

2025-05-12 12:56:43 119

原创 yarn基本介绍

yarn。

2025-05-12 12:55:04 455

原创 数据压缩spark

理解。

2025-05-12 11:36:01 101

原创 hadoop的序列化和反序列化

理解。

2025-05-12 11:34:39 140

原创 序列化与反序列化

理解。

2025-05-12 11:19:29 129

原创 自定义分区器

理解。

2025-05-12 11:17:54 129

原创 mapreduce打包运行

理解。

2025-05-12 11:15:59 114

原创 mapreduce补充

理解。

2025-05-12 11:14:17 101

原创 mapreduce-理解map-reduce

2025-05-12 11:13:06 101

原创 mapreduce-wordcount程序补充

2.maprerduce:计算。1.hdfs:文件存取。

2025-05-12 11:09:38 310

原创 Linux 配置并克隆虚拟机

静待。

2025-05-12 11:04:16 175

原创 java-hdfs-API-设置副本数量

主要内容:副本数量默认为3个,我们把它改成两个。

2025-05-12 11:03:29 156

原创 hdfs-客户端操作-文件上传

总结:获取hadoop集群的文件系统和关闭资源是一个固定的写法,重点在于路径。主要内容:在一个新目录里上传文件。去浏览器看上传是否成功。

2025-05-12 10:50:35 230

原创 spark与hadoop的区别

六.spark的运行模式。五.spark内置模块。

2025-04-21 09:44:28 373

原创 案例-流量统计

1.建一个data目录,在data下建log.txt文件。2.在com.example.flow下建四个Java类。输入手机号码 上行流量 下行流量。

2025-04-08 17:45:12 150

原创 MapReduce的工作原理

以下是其工作原理的详细解析。- 调用用户编写的 `map()` 函数,将输入键值对(如 `<行号, 行内容>`)转换为中间键值对(如 `<单词, 1>`)。本地执行类似 Reduce 的合并操作(如对 `<单词, [1,1]>` 合并为 `<单词, 2>`),减少网络传输量。Reduce 任务将来自不同 Map 的同一分区数据合并,按键分组(如 `<单词, [1,1,1]>`)。Reduce 对每个单词的 `[1,1,...]` 求和,得到 `<word, total_count>`。

2025-03-31 20:16:32 576

原创 hadoop集群的常用命令

hdfs dfs -rm -r /hdfs/path/directory # 递归删除目录。hdfs dfs -setrep -w 3 /path/file # 修改副本数为 3。hdfs dfs -rm /hdfs/path/file # 删除文件。hdfs dfs -du -h /path # 查看目录大小。hdfs dfs -df -h # 查看整体空间。- **检查 HDFS 空间使用**- **查看运行中的应用列表**- **复制/移动文件**- **查看文件内容**

2025-03-31 20:07:15 389

原创 Linux配置虚拟机

步骤一:步骤二:步骤三:步骤四:finalshell。

2025-02-25 18:11:24 377

原创 linux 编辑器

linux

2025-02-24 10:49:12 337

原创 Linux基础摘要 命令及实例

9.压缩文件10.解压文件。

2025-02-24 09:43:16 314

原创 linux 基础学习

linux

2025-02-24 09:05:41 150

原创 Linux操作系统命令

导入。

2025-02-18 15:24:42 251

原创 scala 泛型

idea实例。

2024-12-09 11:36:59 281

原创 scala 隐式对象(下)

idea实例

2024-12-09 10:21:29 149

原创 scala 隐式对象

idea 实例

2024-12-09 08:56:03 469 1

原创 scala 隐式转换

idea实例。

2024-12-05 11:12:39 147

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除