- 博客(66)
- 收藏
- 关注
原创 在 Spark 中配置历史服务器,可按以下步骤操作:1. 配置 spark-defaults.conf 文件此文件一般位于 $SPARK_HOME/conf 目录下。若该文件不存在,可从 spa
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。此文件一般位于 $SPARK_HOME/conf 目录下。若该文件不存在,可从 spark-defaults.conf.template 复制一份。原文链接:https://blog.youkuaiyun.com/2401_87076500/article/details/147923178。1. 配置 spark-defaults.conf 文件。
2025-05-13 15:23:12
212
原创 在spark中配置历史服务器
此文件一般位于 $SPARK_HOME/conf 目录下。若该文件不存在,可从 spark-defaults.conf.template 复制一份。1. 配置 spark-defaults.conf 文件。
2025-05-13 14:33:12
279
原创 spark在shell中运行RDD程序
原文链接:https://blog.youkuaiyun.com/2401_87076425/article/details/147892134。// 将元组的value按照key来分组,对所有的value执行聚合操作(相加)在hdfs中/wcinput中创建一个文件:word2.txt在里面写几个单词。// 将单词转换为元组对象,key是单词,value是数字1。// 将单词进行切割,得到一个存储全部单词的RDD。// 收集RDD的数据并打印输出结果。// 将结果储存在out111中。// 读取文件,得到RDD。
2025-05-12 11:16:31
319
原创 spark程序编写2
命令为:[root@hadoop100 sbin]# spark-submit --class WordCount_online --master yarn /opt/module/original-untitled-1.0-SNAPSHOT.jar /wcinput /output1。原文链接:https://blog.youkuaiyun.com/2401_87076425/article/details/147892064。// 写一个spark程序,统计input目录下所有文本文件中单词的词频。
2025-05-12 11:15:06
416
原创 spark程序编写
8.准备待统计的词频文件。在项目根目录下建立文件夹input,并穿件两个文本文件:word1.txt, word2.txt。它的功能是wordcount的功能:从指定的文件夹中去读取文件,并做词频统计。如果这里没有看到Scala类的选项,就去检查第2步。添加完成之后,刷新Maven,它会帮助我们去下载依赖。IDEA中,默认是不支持编写Scala的,需要额外配置一个插件。// 提取文本内容并执行 WordCount 操作。// 将所有分区的数据合并成一个分区。// 读取目录下的所有文本文件。
2025-05-12 11:13:56
265
原创 案例--流量统计
1.建一个data目录,在data下建log.txt文件。2.在com.example.flow下建四个Java类。输入手机号码 上行流量 下行流量。
2025-04-21 07:58:17
145
原创 mapreduce的工作原理
以下是其工作原理的详细解析。- 调用用户编写的 `map()` 函数,将输入键值对(如 `<行号, 行内容>`)转换为中间键值对(如 `<单词, 1>`)。本地执行类似 Reduce 的合并操作(如对 `<单词, [1,1]>` 合并为 `<单词, 2>`),减少网络传输量。Reduce 任务将来自不同 Map 的同一分区数据合并,按键分组(如 `<单词, [1,1,1]>`)。Reduce 对每个单词的 `[1,1,...]` 求和,得到 `<word, total_count>`。
2025-04-01 07:47:40
375
原创 hadoop 集群的常用命令
hdfs dfs -rm -r /hdfs/path/directory # 递归删除目录。hdfs dfs -setrep -w 3 /path/file # 修改副本数为 3。hdfs dfs -rm /hdfs/path/file # 删除文件。hdfs dfs -du -h /path # 查看目录大小。hdfs dfs -df -h # 查看整体空间。- **检查 HDFS 空间使用**- **查看运行中的应用列表**- **复制/移动文件**- **查看文件内容**
2025-03-31 20:11:19
277
原创 Scala的隐式函数
需求:让字符串增加一个功能:isPhone() 检查当前字符串是否是一个合法的手机号。1. 在函数的默认参数的前面补充关键字:implicit。隐式值:能够自己设置参数默认值,而不是在代码中固定写死。2. 在定义变量的前面 补充关键字:implicit。3. 调用函数式,不加()
2024-12-09 08:31:35
216
原创 Scala的正则表达式,隐式转换
匹配除换行外单个字符a.c,文本abc、a&c等a.c可匹配多种,只要中间是一非换行字符\d等价[0-9],匹配数字\d{3},文本123、456\d{3}匹配连续3个数字\D等价[^0-9],匹配非字符\D+文本abc\D+匹配至少一个非修饰字符,如abc\w等价[a-zA-Z-9_],匹配其他\W,文本&\W匹配非字母等字符,如&\s匹配空白字符a\sb,文本ab。单字符大多数字符匹配自身正则表达式abc,文本abca匹配a,b匹配b,c匹配c方括号[ ]定义字符类,匹配其余字符。
2024-12-09 08:20:51
288
原创 Scala的条件匹配
在 Scala 中,条件匹配主要通过match表达式来实现,它类似于其他语言中的switch语句,但功能更强。基本语法:match表达式通常与case关键字一起使用。判断:2000-2024年那一年是闰年哪一年是平年。输入一段数字,判断属于那个范围。
2024-12-09 08:12:08
256
原创 Scala的统计
val arr = it.next().split(",")//中文的逗号。val avg = f"${s.avg}%.1f" //只保留一位有效数字。val avg = f"${s.avg}%.1f" //只保留一位有效数字。val avg = f"${s.avg}%.1f" //只保留一位有效数字。val avg = f"${s.avg}%.1f" //只保留一位有效数字。val arr = it.next().split(",")//中文逗号。val avg = total / 3 //计算平均分。
2024-12-09 08:05:11
948
原创 Scala的全文单词统计
Map是无序,要对其进行排序,要先把数组转成序列。List,Array。// W:表示一个非字(不是一个字 eg:空格,逗号,句号……//2.把字符串拆分为一个一个的单词,保存到数组。//3.统计每个单词出现的次数。//5.把结果写到一个文件中。// \\:表示正则表达式。2.把字符串拆分成一个一个的单词。1.读取文件,得到很长的字符串。object 全文单词统计 {//1.读入文件内容。// W+:多个非字。3.统计每个单词出现的次数。5.把结果写入到一个文件中。
2024-12-04 20:15:49
365
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人