- 博客(73)
- 收藏
- 关注
原创 写spark程序数据计算( 数据库的计算,求和,汇总之类的)连接mysql数据库,写入计算结果
mode(SaveMode.Overwrite) // 根据需求选择保存模式。// 1. 读取数据源(这里使用CSV示例,实际可以是Hive、JDBC等).master("local[*]") // 生产环境需修改为集群地址。// 4. 将结果写入数据库(这里以MySQL为例)// 创建SparkSession。// 3. 显示计算结果(调试用)// 停止SparkSession。// 2. 数据转换与计算。
2025-05-18 21:06:39
669
原创 连接mysql数据库
上传并解压mysql-5.7.28-1.el7.x86_64.rpm-bundle.tar (/opt/software)解压的命令是:tatar -xf mysql-5.7.28-1.el7.x86_64.rpm-bundle.tar。请注意,这里并没没有单独添加spark_core的依赖,因为在spark-sql中已经包含了spark_core。使用的命令是: mysql --initialize --user=mysql。命令:rpm -e --nodeps mariadb-libs。
2025-05-18 19:42:30
919
原创 spark-配置yarn模式
解压的命令是:tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/module。1.上传并解压spark-3.1.1-bin-hadoop3.2.tgz (/opt/software)解压之后的目录为spark-yarn(原为spark-3.1.1-bin-hadoop3.2.tgz)运行: ./start-all.sh 和 ./start-history-server.sh。进入/opt/module/spark-yarn/sbin。
2025-05-18 17:16:40
780
原创 idea编写maven项目
在IDEA中选择 Create New Project > Maven > 勾选Create from archetype > 选择 maven-archetype-quickstart ,点击下一步。-- Spark SQL(按需添加其他模块,如spark-streaming) -->-- Maven打包插件(可选,用于生成可执行JAR) -->-- Scala编译插件 -->-- Scala语言依赖 -->-- 声明Scala插件 -->-- 插件配置 -->二、创建Maven项目。
2025-05-13 14:35:02
818
原创 hdfs-客户端操作-文件上传
总结:获取hadoop集群的文件系统和关闭资源是一个固定的写法,重点在于路径。主要内容:在一个新目录里上传文件。去浏览器看上传是否成功。
2025-05-12 10:50:35
230
原创 案例-流量统计
1.建一个data目录,在data下建log.txt文件。2.在com.example.flow下建四个Java类。输入手机号码 上行流量 下行流量。
2025-04-08 17:45:12
150
原创 MapReduce的工作原理
以下是其工作原理的详细解析。- 调用用户编写的 `map()` 函数,将输入键值对(如 `<行号, 行内容>`)转换为中间键值对(如 `<单词, 1>`)。本地执行类似 Reduce 的合并操作(如对 `<单词, [1,1]>` 合并为 `<单词, 2>`),减少网络传输量。Reduce 任务将来自不同 Map 的同一分区数据合并,按键分组(如 `<单词, [1,1,1]>`)。Reduce 对每个单词的 `[1,1,...]` 求和,得到 `<word, total_count>`。
2025-03-31 20:16:32
576
原创 hadoop集群的常用命令
hdfs dfs -rm -r /hdfs/path/directory # 递归删除目录。hdfs dfs -setrep -w 3 /path/file # 修改副本数为 3。hdfs dfs -rm /hdfs/path/file # 删除文件。hdfs dfs -du -h /path # 查看目录大小。hdfs dfs -df -h # 查看整体空间。- **检查 HDFS 空间使用**- **查看运行中的应用列表**- **复制/移动文件**- **查看文件内容**
2025-03-31 20:07:15
389
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1