哈哈la-优快云博客

原创 idea编写maven项目

在IDEA中选择 Create New Project > Maven > 勾选Create from archetype > 选择 maven-archetype-quickstart ，点击下一步。-- Spark SQL（按需添加其他模块，如spark-streaming） -->-- Maven打包插件（可选，用于生成可执行JAR） -->-- Scala编译插件 -->-- Scala语言依赖 -->-- 声明Scala插件 -->-- 插件配置 -->二、创建Maven项目。

2025-05-13 09:19:27 882

原创集群搭建之yarn模式

Yarn全局资源需在 yarn-site.xml 中配置（如 yarn.nodemanager.resource.memory-mb ）。spark.eventLog.dir hdfs://nameservice1/spark-logs # HDFS日志路径（需提前创建）- 官网下载对应Hadoop版本的Spark（如 spark-3.5.0-bin-hadoop3 ），上传至主节点。- 通过 --executor-memory 和 --executor-cores 控制单个Executor资源。

2025-05-13 09:19:20 583

原创集群搭建-standalone

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk # 替换为实际路径。export SPARK_MASTER_IP=master_hostname # 主节点主机名/IP。- 官网下载对应版本（如 spark-3.5.0-bin-hadoop3 ），上传至主节点。- 主节点Web界面： http://master_ip:8080 ，查看从节点是否在线。ssh-copy-id slave1 # 替换为从节点主机名/IP。2. 分发Spark到从节点。

2025-05-13 09:19:11 320

原创 RDD的换算因子

对具有相同键的所有值进行聚合操作 = 统计词频。对数字1-10进行过滤，过滤出偶数。对数字1-10进行乘除，*2。reduceByKey算子。filatMap算子。

2025-05-13 09:19:04 218

原创在shell中运行RDD程序

/ 将元组的value按照key来分组，对所有的value执行聚合操作(相加)在hdfs中/wcinput中创建一个文件：word2.txt在里面写几个单词。进入环境：spark-shell --master yarn。// 将单词转换为元组对象，key是单词，value是数字1。// 将单词进行切割，得到一个存储全部单词的RDD。// 收集RDD的数据并打印输出结果。// 将结果储存在out111中。// 读取文件，得到RDD。按住ctrl+D退出。

2025-05-13 09:18:57 296

原创 spark idea中编写spark程序2

命令为：[root@hadoop100 sbin]# spark-submit --class WordCount_online --master yarn /opt/module/original-untitled-1.0-SNAPSHOT.jar /wcinput /output1。修改两个地方：输入目录改成args(0), 输出的目录改成args(1)。一、修改pom.xml文件。出现结果如下即为运行成功。

2025-05-13 09:18:49 624

原创 spark idea中编写spark程序1

它的功能是wordcount的功能：从指定的文件夹中去读取文件，并做词频统计。如果这里没有看到Scala类的选项，就去检查第2步。添加完成之后，刷新Maven，它会帮助我们去下载依赖。IDEA中，默认是不支持编写Scala的，需要额外配置一个插件。// 提取文本内容并执行 WordCount 操作。// 创建 SparkContext 对象。// 将所有分区的数据合并成一个分区。// 停止 SparkContext。// 配置 Spark 应用程序。// 读取目录下的所有文本文件。// 保存结果到文件。

2025-05-13 09:18:39 760

原创 spark所用几个网页地址

YARN的ResourceManager网址：http://hadoop101:8088。History Server网址：192.168.56.100:18080。HDFS的NameNode网址：http://hadoop100:9870。2. MapReduce：计算。1. HDFS：存储。3. YARN：调度。

2025-05-13 09:18:29 175

原创如何在idea中写spark程序

打开 File > Settings > Build, Execution, Deployment > Application Servers ，添加 Spark 路径（指向解压后的 spark-3.3.2-bin-hadoop3 目录）。- 从 Spark 官网下载对应版本的预编译包（如 spark-3.3.2-bin-hadoop3 ），解压到本地（如 C:\spark ）。- Main Class：填入主类全路径（如 com.example.WordCount ）。

2025-05-13 09:18:19 319

原创 tool接口-代码实现

2025-05-12 17:55:48 115

原创 tool接口-问题说明

2025-05-12 17:55:10 128

原创设置不同的任务队列

2025-05-12 17:54:37 332

原创 yarn基本介绍

2025-05-12 17:53:30 72

原创数据压缩spark

2025-05-12 17:52:55 113

原创 hadoop的序列化和反序列化

2025-05-12 17:52:24 118

原创 mapreduce补充

理解。

2025-05-12 17:50:30 297

原创 mapreduce-理解map-redece

2025-05-12 17:49:50 92

原创案例-流量统计

1.建一个data目录，在data下建log.txt文件。2.在com.example.flow下建四个。输入手机号码上行流量下行流量。

2025-05-12 17:47:22 203

原创序列化与反序列化

理解。

2025-05-12 11:20:14 364

原创自定义分区器

理解。

2025-05-12 11:19:35 92

原创 mapreduce打包运行

理解。

2025-05-12 11:19:02 108

原创 mapreduce-wordcount程序补充

2.maprerduce:计算。1.hdfs:文件存取。

2025-05-12 11:16:52 174

原创 JAVA-hdfs-API-设置副本数量

主要内容：副本数量默认为3个，我们把它改成两个。

2025-05-12 11:15:44 116

原创 hdfs-客户端操作-文件上传

总结：获取hadoop集群的文件系统和关闭资源是一个固定的写法，重点在于路径。主要内容：在一个新目录里上传文件。去浏览器看上传是否成功。

2025-05-12 11:14:32 235

原创 spark和hadoop的区别

一、spark概述二、处理速度三、编程模型。

2025-04-21 08:58:55 354

原创 6.hadoop 集群的常用命令

hdfs dfs -rm -r /hdfs/path/directory # 递归删除目录。hdfs dfs -setrep -w 3 /path/file # 修改副本数为 3。hdfs dfs -rm /hdfs/path/file # 删除文件。hdfs dfs -du -h /path # 查看目录大小。hdfs dfs -df -h # 查看整体空间。- **检查 HDFS 空间使用**- **查看运行中的应用列表**- **复制/移动文件**- **查看文件内容**

2025-04-01 07:50:41 342

原创 mapreduce的工作原理

以下是其工作原理的详细解析。- 调用用户编写的 `map()` 函数，将输入键值对（如 `<行号, 行内容>`）转换为中间键值对（如 `<单词, 1>`）。本地执行类似 Reduce 的合并操作（如对 `<单词, [1,1]>` 合并为 `<单词, 2>`），减少网络传输量。Reduce 任务将来自不同 Map 的同一分区数据合并，按键分组（如 `<单词, [1,1,1]>`）。Reduce 对每个单词的 `[1,1,...]` 求和，得到 `<word, total_count>`。

2025-04-01 07:50:14 367