自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(69)
  • 收藏
  • 关注

原创 idea编写maven项目

在IDEA中选择 Create New Project > Maven > 勾选Create from archetype > 选择 maven-archetype-quickstart ,点击下一步。-- Spark SQL(按需添加其他模块,如spark-streaming) -->-- Maven打包插件(可选,用于生成可执行JAR) -->-- Scala编译插件 -->-- Scala语言依赖 -->-- 声明Scala插件 -->-- 插件配置 -->二、创建Maven项目。

2025-05-13 09:19:27 882

原创 集群搭建之yarn模式

Yarn全局资源需在 yarn-site.xml 中配置(如 yarn.nodemanager.resource.memory-mb )。spark.eventLog.dir hdfs://nameservice1/spark-logs # HDFS日志路径(需提前创建)- 官网下载对应Hadoop版本的Spark(如 spark-3.5.0-bin-hadoop3 ),上传至主节点。- 通过 --executor-memory 和 --executor-cores 控制单个Executor资源。

2025-05-13 09:19:20 583

原创 集群搭建-standalone

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk # 替换为实际路径。export SPARK_MASTER_IP=master_hostname # 主节点主机名/IP。- 官网下载对应版本(如 spark-3.5.0-bin-hadoop3 ),上传至主节点。- 主节点Web界面: http://master_ip:8080 ,查看从节点是否在线。ssh-copy-id slave1 # 替换为从节点主机名/IP。2. 分发Spark到从节点。

2025-05-13 09:19:11 320

原创 RDD的换算因子

对具有相同键的所有值进行聚合操作 = 统计词频。对数字1-10进行过滤,过滤出偶数。对数字1-10进行乘除,*2。reduceByKey算子。filatMap算子。

2025-05-13 09:19:04 218

原创 在shell中运行RDD程序

/ 将元组的value按照key来分组,对所有的value执行聚合操作(相加)在hdfs中/wcinput中创建一个文件:word2.txt在里面写几个单词。进入环境:spark-shell --master yarn。// 将单词转换为元组对象,key是单词,value是数字1。// 将单词进行切割,得到一个存储全部单词的RDD。// 收集RDD的数据并打印输出结果。// 将结果储存在out111中。// 读取文件,得到RDD。按住ctrl+D退出。

2025-05-13 09:18:57 296

原创 spark idea中编写spark程序2

命令为:[root@hadoop100 sbin]# spark-submit --class WordCount_online --master yarn /opt/module/original-untitled-1.0-SNAPSHOT.jar /wcinput /output1。修改两个地方:输入目录改成args(0), 输出的目录改成args(1)。一、修改pom.xml文件。出现结果如下即为运行成功。

2025-05-13 09:18:49 624

原创 spark idea中编写spark程序1

它的功能是wordcount的功能:从指定的文件夹中去读取文件,并做词频统计。如果这里没有看到Scala类的选项,就去检查第2步。添加完成之后,刷新Maven,它会帮助我们去下载依赖。IDEA中,默认是不支持编写Scala的,需要额外配置一个插件。// 提取文本内容并执行 WordCount 操作。// 创建 SparkContext 对象。// 将所有分区的数据合并成一个分区。// 停止 SparkContext。// 配置 Spark 应用程序。// 读取目录下的所有文本文件。// 保存结果到文件。

2025-05-13 09:18:39 760

原创 spark所用几个网页地址

YARN的ResourceManager网址:http://hadoop101:8088。History Server网址:192.168.56.100:18080。HDFS的NameNode网址:http://hadoop100:9870。2. MapReduce:计算。1. HDFS:存储。3. YARN:调度。

2025-05-13 09:18:29 175

原创 如何在idea中写spark程序

打开 File > Settings > Build, Execution, Deployment > Application Servers ,添加 Spark 路径(指向解压后的 spark-3.3.2-bin-hadoop3 目录)。- 从 Spark 官网 下载对应版本的预编译包(如 spark-3.3.2-bin-hadoop3 ),解压到本地(如 C:\spark )。- Main Class:填入主类全路径(如 com.example.WordCount )。

2025-05-13 09:18:19 319

原创 tool接口-代码实现

2025-05-12 17:55:48 115

原创 tool接口-问题说明

2025-05-12 17:55:10 128

原创 设置不同的任务队列

2025-05-12 17:54:37 332

原创 yarn基本介绍

2025-05-12 17:53:30 72

原创 数据压缩spark

2025-05-12 17:52:55 113

原创 hadoop的序列化和反序列化

2025-05-12 17:52:24 118

原创 mapreduce补充

理解。

2025-05-12 17:50:30 297

原创 mapreduce-理解map-redece

2025-05-12 17:49:50 92

原创 案例-流量统计

1.建一个data目录,在data下建log.txt文件。2.在com.example.flow下建四个。输入手机号码 上行流量 下行流量。

2025-05-12 17:47:22 203

原创 序列化与反序列化

理解。

2025-05-12 11:20:14 364

原创 自定义分区器

理解。

2025-05-12 11:19:35 92

原创 mapreduce打包运行

理解。

2025-05-12 11:19:02 108

原创 mapreduce-wordcount程序补充

2.maprerduce:计算。1.hdfs:文件存取。

2025-05-12 11:16:52 174

原创 JAVA-hdfs-API-设置副本数量

主要内容:副本数量默认为3个,我们把它改成两个。

2025-05-12 11:15:44 116

原创 hdfs-客户端操作-文件上传

总结:获取hadoop集群的文件系统和关闭资源是一个固定的写法,重点在于路径。主要内容:在一个新目录里上传文件。去浏览器看上传是否成功。

2025-05-12 11:14:32 235

原创 spark和hadoop的区别

一、spark概述二、处理速度三、 编程模型。

2025-04-21 08:58:55 354

原创 6.hadoop 集群的常用命令

hdfs dfs -rm -r /hdfs/path/directory # 递归删除目录。hdfs dfs -setrep -w 3 /path/file # 修改副本数为 3。hdfs dfs -rm /hdfs/path/file # 删除文件。hdfs dfs -du -h /path # 查看目录大小。hdfs dfs -df -h # 查看整体空间。- **检查 HDFS 空间使用**- **查看运行中的应用列表**- **复制/移动文件**- **查看文件内容**

2025-04-01 07:50:41 342

原创 mapreduce的工作原理

以下是其工作原理的详细解析。- 调用用户编写的 `map()` 函数,将输入键值对(如 `<行号, 行内容>`)转换为中间键值对(如 `<单词, 1>`)。本地执行类似 Reduce 的合并操作(如对 `<单词, [1,1]>` 合并为 `<单词, 2>`),减少网络传输量。Reduce 任务将来自不同 Map 的同一分区数据合并,按键分组(如 `<单词, [1,1,1]>`)。Reduce 对每个单词的 `[1,1,...]` 求和,得到 `<word, total_count>`。

2025-04-01 07:50:14 367

原创 5.Linux配置虚拟机

步骤一步骤二步骤三步骤四finalshell。

2025-03-03 19:32:00 257

原创 4.Linux操作系统命令

1.Linux和centos操作系统命令。2.Linux的文件系统。5.路径中的特殊字符。

2025-03-03 19:27:25 146

原创 3.Linux编译器

1.三种模式2.图例3.wq4.光标的使用。

2025-02-24 20:12:26 196

原创 2.Linux基础摘要 命令及实例

1.cat命令 more命令。

2025-02-24 20:08:04 233

原创 1.Linux基础学习

1.Linux基本命令。

2025-02-24 19:30:45 259

原创 Scala课堂小结32

2024-12-09 11:34:10 123

原创 Scala课堂小结31

2024-12-09 10:21:57 116

原创 Scala课堂小结30

2024-12-09 08:34:13 131

原创 Scala课堂小结29

2024-12-05 11:30:51 117

原创 Scala课堂小结28

2024-12-05 11:30:11 161

原创 Scala课堂小结27

2024-12-05 11:28:04 104

原创 Scala课堂小结26

2024-12-05 11:25:57 125

原创 Scala课堂小结25

数组。

2024-11-14 11:37:12 283

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除