自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(66)
  • 收藏
  • 关注

原创 在 Spark 中配置历史服务器,可按以下步骤操作:1. 配置 spark-defaults.conf 文件此文件一般位于 $SPARK_HOME/conf 目录下。若该文件不存在,可从 spa

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。此文件一般位于 $SPARK_HOME/conf 目录下。若该文件不存在,可从 spark-defaults.conf.template 复制一份。原文链接:https://blog.youkuaiyun.com/2401_87076500/article/details/147923178。1. 配置 spark-defaults.conf 文件。

2025-05-13 15:23:12 212

原创 在spark中配置历史服务器

此文件一般位于 $SPARK_HOME/conf 目录下。若该文件不存在,可从 spark-defaults.conf.template 复制一份。1. 配置 spark-defaults.conf 文件。

2025-05-13 14:33:12 279

原创 RDD运行过程

2025-05-13 14:30:09 77

原创 spark-shell中写代码

2025-05-13 14:29:10 93

原创 RDD基本介绍

2025-05-13 14:28:14 89

原创 打包spark代码在集群中运行

2025-05-13 14:25:46 107

原创 idea写spark程序

2025-05-13 14:24:59 114

原创 spark-配置yarn模式

2025-05-13 14:18:21 70

原创 tool接口——代码实现

代码实现。

2025-05-12 19:06:57 116

原创 tool接口

tool接口。

2025-05-12 19:06:00 85

原创 设置不同的任务队列

设置不同的任务队列。

2025-05-12 19:05:17 81

原创 yarn基本介绍

yarn。

2025-05-12 19:03:39 76

原创 数据压缩Spark

理解。

2025-05-12 19:02:44 112

原创 序列化与反序列化

2025-05-12 11:36:25 85

原创 自定义分区器

2025-05-12 11:35:47 75

原创 mapreduce打包运行

2025-05-12 11:35:04 403

原创 mapreduce补充

2025-05-12 11:34:22 115

原创 mapreduce-wordcount程序补充

2025-05-12 11:27:18 61

原创 spark

2025-05-12 11:18:46 241

原创 spark在shell中运行RDD程序

原文链接:https://blog.youkuaiyun.com/2401_87076425/article/details/147892134。// 将元组的value按照key来分组,对所有的value执行聚合操作(相加)在hdfs中/wcinput中创建一个文件:word2.txt在里面写几个单词。// 将单词转换为元组对象,key是单词,value是数字1。// 将单词进行切割,得到一个存储全部单词的RDD。// 收集RDD的数据并打印输出结果。// 将结果储存在out111中。// 读取文件,得到RDD。

2025-05-12 11:16:31 319

原创 spark程序编写2

命令为:[root@hadoop100 sbin]# spark-submit --class WordCount_online --master yarn /opt/module/original-untitled-1.0-SNAPSHOT.jar /wcinput /output1。原文链接:https://blog.youkuaiyun.com/2401_87076425/article/details/147892064。// 写一个spark程序,统计input目录下所有文本文件中单词的词频。

2025-05-12 11:15:06 416

原创 spark程序编写

8.准备待统计的词频文件。在项目根目录下建立文件夹input,并穿件两个文本文件:word1.txt, word2.txt。它的功能是wordcount的功能:从指定的文件夹中去读取文件,并做词频统计。如果这里没有看到Scala类的选项,就去检查第2步。添加完成之后,刷新Maven,它会帮助我们去下载依赖。IDEA中,默认是不支持编写Scala的,需要额外配置一个插件。// 提取文本内容并执行 WordCount 操作。// 将所有分区的数据合并成一个分区。// 读取目录下的所有文本文件。

2025-05-12 11:13:56 265

原创 spark,所用几个网页

2. MapReduce:计算。1. HDFS:存储。3. YARN:调度。

2025-05-12 11:12:19 83

原创 spark和hadroop的区别与联系

2025-04-21 08:59:22 94

原创 案例--流量统计

1.建一个data目录,在data下建log.txt文件。2.在com.example.flow下建四个Java类。输入手机号码 上行流量 下行流量。

2025-04-21 07:58:17 145

原创 mapreduce的工作原理

以下是其工作原理的详细解析。- 调用用户编写的 `map()` 函数,将输入键值对(如 `<行号, 行内容>`)转换为中间键值对(如 `<单词, 1>`)。本地执行类似 Reduce 的合并操作(如对 `<单词, [1,1]>` 合并为 `<单词, 2>`),减少网络传输量。Reduce 任务将来自不同 Map 的同一分区数据合并,按键分组(如 `<单词, [1,1,1]>`)。Reduce 对每个单词的 `[1,1,...]` 求和,得到 `<word, total_count>`。

2025-04-01 07:47:40 375

原创 hadoop 集群的常用命令

hdfs dfs -rm -r /hdfs/path/directory # 递归删除目录。hdfs dfs -setrep -w 3 /path/file # 修改副本数为 3。hdfs dfs -rm /hdfs/path/file # 删除文件。hdfs dfs -du -h /path # 查看目录大小。hdfs dfs -df -h # 查看整体空间。- **检查 HDFS 空间使用**- **查看运行中的应用列表**- **复制/移动文件**- **查看文件内容**

2025-03-31 20:11:19 277

原创 Linux配置虚拟机

12345。

2025-03-03 19:25:34 212

原创 Linux编辑器

123456。

2025-02-25 13:15:54 151

原创 Linux编辑器

1。

2025-02-25 08:37:40 119

原创 Linux命令

1.cat 命令 more命令。4.追加>> 覆盖>

2025-02-24 17:59:59 134

原创 Linux操作系统命令

导入。

2025-02-24 17:54:12 170

原创 Scala思维导图

2024-12-30 07:55:58 111

原创 Scala课堂小结

(一)数组:1.不可变数组2创建数组。

2024-12-25 14:38:26 511

原创 Scala的隐式函数

需求:让字符串增加一个功能:isPhone() 检查当前字符串是否是一个合法的手机号。1. 在函数的默认参数的前面补充关键字:implicit。隐式值:能够自己设置参数默认值,而不是在代码中固定写死。2. 在定义变量的前面 补充关键字:implicit。3. 调用函数式,不加()

2024-12-09 08:31:35 216

原创 Scala的正则表达式,隐式转换

匹配除换行外单个字符a.c,文本abc、a&c等a.c可匹配多种,只要中间是一非换行字符\d等价[0-9],匹配数字\d{3},文本123、456\d{3}匹配连续3个数字\D等价[^0-9],匹配非字符\D+文本abc\D+匹配至少一个非修饰字符,如abc\w等价[a-zA-Z-9_],匹配其他\W,文本&\W匹配非字母等字符,如&\s匹配空白字符a\sb,文本ab。单字符大多数字符匹配自身正则表达式abc,文本abca匹配a,b匹配b,c匹配c方括号[ ]定义字符类,匹配其余字符。

2024-12-09 08:20:51 288

原创 Scala的条件匹配

在 Scala 中,条件匹配主要通过match表达式来实现,它类似于其他语言中的switch语句,但功能更强。基本语法:match表达式通常与case关键字一起使用。判断:2000-2024年那一年是闰年哪一年是平年。输入一段数字,判断属于那个范围。

2024-12-09 08:12:08 256

原创 Scala的统计

val arr = it.next().split(",")//中文的逗号。val avg = f"${s.avg}%.1f" //只保留一位有效数字。val avg = f"${s.avg}%.1f" //只保留一位有效数字。val avg = f"${s.avg}%.1f" //只保留一位有效数字。val avg = f"${s.avg}%.1f" //只保留一位有效数字。val arr = it.next().split(",")//中文逗号。val avg = total / 3 //计算平均分。

2024-12-09 08:05:11 948

原创 【无标题】

2024-12-05 11:22:42 109

原创 Scala的全文单词统计

Map是无序,要对其进行排序,要先把数组转成序列。List,Array。// W:表示一个非字(不是一个字 eg:空格,逗号,句号……//2.把字符串拆分为一个一个的单词,保存到数组。//3.统计每个单词出现的次数。//5.把结果写到一个文件中。// \\:表示正则表达式。2.把字符串拆分成一个一个的单词。1.读取文件,得到很长的字符串。object 全文单词统计 {//1.读入文件内容。// W+:多个非字。3.统计每个单词出现的次数。5.把结果写入到一个文件中。

2024-12-04 20:15:49 365

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除