Spark算子补充<一>

collectAsMap

函数原型
def collectAsMap(): Map[K, V]

功能和collect函数类似。该函数用于Pair RDD,最终返回Map类型的结果,如果RDD中同一个Key中存在多个Value,那么后面的Value将会把前面的Value覆盖,最终得到的结果就是Key唯一,而且对应一个Value

keyby

函数原型
def keyBy[K](f: T => K): RDD[(K, T)]

创建一个pairRDD,而key就是keyBy所指定的

repartition和coalesce

利用repartition和coalesce重分区

val data = spark.sparkContext.textFile("J:\\reference\\temp\\pom.txt")
    val size = data.partitions.size
    println(s"原分区大小:$size")
    //如果重分区的数目大于原来的分区数,那么必须制定shuffle参数为true,否则分区数不变
    val rdd1 = data.coalesce(4, true)
    val size2 = rdd1.partitions.size
    println(s"使用coalesce新分区大小:$size2")
    //该函数其实就是coalesce函数第二个参数为true的实现
    val rdd2 = data.repartition(5)
    val size3 = rdd2.partitions.size
    println(s"使用reparation分区大小:$size3")

randomSplit

该函数根据weights权重,将一个RDD切分成多个RDD

val rdd = spark.sparkContext.makeRDD(1 to 10, 10)
    //权重参数,权重越大分得数据的几率也就越大,第二个参数10是种子
    val splitedRDD = rdd.randomSplit(Array(1.0, 2.0, 3.0, 4.0))
    for (elem <- splitedRDD) {
      for (e <- elem) {
        print(e + " ")
      }
      println()
    }

glom

该函数是将RDD中每一个分区中类型为T的元素转换成Array[T],这样每一个分区就只有一个数组元素

val rdd = spark.sparkContext.makeRDD(1 to 10, 3)
    val size = rdd.partitions.size
    println(s"原rdd分区大小$size")
    //将原rdd的3个分区转化为一个具有三个元素的数组
    val rdd2 = rdd.glom()
    for (elem <- rdd2) {
      for (e <- elem) {
        print(e + " ")
      }
      println()
    }

union

//将两个rdd合并不去重

    val rdd1 = spark.sparkContext.makeRDD(1 to 2, 1)
    val rdd2 = spark.sparkContext.makeRDD(2 to 3, 1)
    for (elem <- rdd1.union(rdd2).collect()) {
      println(elem)
    }

intersection

//返回两个rdd的交集并且区中
//numPartition指定分区
//指定分区函数

val rdd1 = spark.sparkContext.makeRDD(1 to 2, 1)
    val rdd2 = spark.sparkContext.makeRDD(2 to 3, 1)
    val rdd3 = rdd1.intersection(rdd2, 2)
    for (elem <- rdd3.collect()) {
      println(elem)
    }
    println(rdd3.partitions.size)

subtract

该函数类似于intersection,但返回在RDD中出现,并且不在otherRDD中出现的元素,不去重

val rdd1 = spark.sparkContext.makeRDD(Seq(1, 2, 2, 3))
    val rdd2 = spark.sparkContext.makeRDD(3 to 4)
    val rdd3 = rdd1.subtract(rdd2)
    for (elem <- rdd3.collect()) {
      println(elem)
    }
课程名称: 大数据技术原理与应用 专业班级: 数科2304 姓 名: 仇焯 学 号: 2023002253 指导教师: 陈泽华老师 2025年10月20日 实验 Spark Word Count 、实验内容: 基本要求: 完成Spark Word Count 二 、实验工具 虚拟机软件 VMware Workstation Pro17 操作系统 CentOS 7(64 位) ftp工具 XShell 8 Java 版本 jdk1.8.0_212 Hadoop 版本 hadoop-3.1.3 Spark版本 Spark 3.3.0 Maven 版本 Maven 3.6.3 三 、实验过程与截图 1.前置检查(必须执行) 1.1检查Spark集群状态 在 Master 节点(hadoop102)执行以下命令,确认 Master 和 Worker 进程正常运行: - 执行节点:在 HDFS 的主节点(通常是 `hadoop102`)上执行。 - 命令(绝对路径): /opt/module/hadoop-3.1.3/sbin/start-dfs.sh 验证:在所有节点上执行 `jps` 命令。 - `hadoop102` 应看到 `NameNode` 和 `DataNode`。 - `hadoop103` 应看到 `DataNode`。 - `hadoop104` 应看到 `DataNode` 和 `SecondaryNameNode` 键启动集群(自动启动 Master 和所有 Worker): $SPARK_HOME/sbin/start-all.sh # 查看Master节点进程 Jps # 查看Worker节点进程(分别在hadoop103、hadoop104执行) Jps 解释:jps命令用于查看 Java 进程,需确保 hadoop102 有Master进程,hadoop103/104 有Worker进程,否则需重启集群:$SPARK_HOME/sbin/start-all.sh。 1.2验证HDFS服务可用性 词频统计需通过 HDFS 存储输入输出数据,执行以下命令检查 HDFS 状态: # 查看HDFS根目录 hdfs dfs -ls / # 测试HDFS写入权限 hdfs dfs -touchz /test.txt && hdfs dfs -rm /test.txt 解释:通过创建临时文件验证 HDFS 读写权限,若提示`Permission denied`需检查 Hadoop 目录权限配置。 2. 数据准备(HDFS 数据上传) 2.1 创建 HDFS 数据目录 # 创建输入目录(存放待分析文本) hdfs dfs -mkdir -p /spark-wordcount/input # 创建输出目录(后续运行前需删除,此处仅为演示) hdfs dfs -mkdir -p /spark-wordcount/output 2.2 准备本地测试文本 vi /home/atguigu/wordcount-data.txt 粘贴测试内容: Hello Spark Hello Hadoop Spark is fast Hadoop is stable Hello Spark HBase Spark Spark Spark 2.3上传文本到 HDFS hdfs dfs -put /home/atguigu/wordcount-data.txt /spark-wordcount/input/ # 验证上传结果 hdfs dfs -ls /spark-wordcount/input/ 3. 词频统计实现(Scala 语言方案) 3.1编写 Scala 代码 1. 创建代码目录(含 Maven 要求的源码结构) # 创建项目根目录 mkdir -p /home/atguigu/spark-code/scala # 进入项目根目录 cd /home/atguigu/spark-code/scala # 创建 Maven 规定的 Scala 源码目录(必须!否则 Maven 找不到代码) mkdir -p src/main/scala 2. 在正确目录下编写代码 # 注意:代码必须放在 src/main/scala 目录下 vi src/main/scala/WordCount.scala 3. 粘贴代码 // 导入Spark核心依赖(必须完整,避免编译错误) import org.apache.spark.{SparkConf, SparkContext} // 词频统计主类(单例对象,Scala中可作为入口类,类名必须与pom.xml的mainClass致) object WordCount { def main(args: Array[String]): Unit = { // 1. 配置Spark应用(集群模式下,setMaster可通过spark-submit参数覆盖,更灵活) val conf = new SparkConf() .setAppName("Scala-WordCount") // 应用名称,Web UI可见 // 注:集群提交时建议删除setMaster,通过--master参数指定,避免硬编码 // .setMaster("spark://192.168.10.102:7077") .set("spark.executor.memory", "2g") .set("spark.cores.max", "4") // 2. 创建Spark上下文(核心入口,需确保配置正确) val sc = new SparkContext(conf) sc.setLogLevel("WARN") // 减少日志输出,聚焦结果 // 3. 处理输入输出路径(优先使用命令行参数,适配不同场景) val inputPath = if (args.length > 0) args(0) else "/spark-wordcount/input" val outputPath = if (args.length > 1) args(1) else "/spark-wordcount/output" // 4. 核心逻辑(分步注释,清晰易懂) val wordCounts = sc.textFile(inputPath) // 读取文件:每行作为个元素 .flatMap(line => line.split("\\s+")) // 分词:按任意空白分割,扁平化为单词 .map(word => (word, 1)) // 标记计数:每个单词映射为(单词, 1) .reduceByKey(_ + _) // 聚合:按单词累加计数(简化写法,等价于(a,b)=>a+b) .sortBy(_._2, ascending = false) // 排序:按词频降序 // 5. 输出结果(控制台+HDFS,双重验证) println("=== 词频统计结果 ===") wordCounts.collect().foreach(println) // 控制台打印(仅适合小数据) wordCounts.saveAsTextFile(outputPath) // 保存到HDFS(分布式场景推荐) // 6. 释放资源(必须执行,避免内存泄漏) sc.stop() } } \- `textFile`:读取 HDFS 或本地文件,返回行级 RDD(弹性分布式数据集),是 Spark 数据处理的基础结构; `flatMap`:扁平化转换,将每行文本拆分为单个单词,解决`map`操作可能产生的嵌套数组问题; `reduceByKey`:Spark 核心聚合算子,自动按 key 分组并执行累加,比`groupByKey`更高效(减少网络传输); `collect`:动作算子,将分布式 RDD 数据拉取到 Driver 节点,仅适合小结果集查看。 4. 验证代码位置(关键检查): # 确保代码在 src/main/scala 目录下 ls -l src/main/scala/WordCount.scala # 预期输出:-rw-r--r-- 1 atguigu atguigu ... src/main/scala/WordCount.scala 3.2 打包 Scala 代码(Maven 方式) 1.创建 `pom.xml`: vi /home/atguigu/spark-code/scala/pom.xml 复制粘贴以下配置(适配 Spark 3.3.0 和 Scala 2.12) <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <!-- 项目基本信息(自定义,确保唯即可) --> <groupId>com.atguigu.spark</groupId> <artifactId>spark-wordcount</artifactId> <version>1.0-SNAPSHOT</version> <!-- 版本管理(关键:Scala与Spark版本必须匹配) --> <properties> <scala.version>2.12.15</scala.version> <!-- Spark 3.3.0适配Scala 2.12.x --> <spark.version>3.3.0</spark.version> <!-- 与集群Spark版本致 --> <maven.compiler.source>1.8</maven.compiler.source> <!-- 适配JDK 1.8 --> <maven.compiler.target>1.8</maven.compiler.target> </properties> <!-- 依赖配置(仅包含必要依赖,避免冲突) --> <dependencies> <!-- Spark核心依赖(scope=provided:集群已存在,打包不包含) --> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <!-- 后缀_2.12对应Scala版本 --> <version>${spark.version}</version> <scope>provided</scope> </dependency> </dependencies> <!-- 构建配置(核心:确保Scala代码编译并打包进JAR) --> <build> <sourceDirectory>src/main/scala</sourceDirectory> <!-- 指定Scala源码目录 --> <testSourceDirectory>src/main/test</testSourceDirectory> <plugins> <!-- 1. Scala编译插件(必须配置,否则Maven无法编译.scala文件) --> <plugin> <groupId>net.alchim31.maven</groupId> <artifactId>scala-maven-plugin</artifactId> <version>4.5.4</version> <executions> <execution> <id>scala-compile</id> <goals> <goal>compile</goal> <!-- 编译Scala源码 --> <goal>testCompile</goal> </goals> <configuration> <args> <arg>-dependencyfile</arg> <arg>${project.build.directory}/.scala_dependencies</arg> </args> </configuration> </execution> </executions> </plugin> <!-- 2. 打包插件(生成可执行JAR,包含主类信息) --> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-shade-plugin</artifactId> <version>3.3.0</version> <executions> <execution> <phase>package</phase> <goals><goal>shade</goal></goals> <configuration> <!-- 解决依赖冲突:保留最后个依赖版本 --> <filters> <filter> <artifact>*:*</artifact> <excludes> <exclude>META-INF/*.SF</exclude> <exclude>META-INF/*.DSA</exclude> <exclude>META-INF/*.RSA</exclude> </excludes> </filter> </filters> <!-- 指定主类(必须与Scala代码中的object名称致) --> <transformers> <transformer implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer"> <mainClass>WordCount</mainClass> <!-- 无包名时直接写类名 --> </transformer> </transformers> </configuration> </execution> </executions> </plugin> </plugins> </build> </project> 编译并打包: # 进入项目根目录 cd /home/atguigu/spark-code/scala # 清理旧文件并编译(首次编译时间较长) mvn clean scala:compile # 【关键验证1】检查是否生成 .class 文件 ls -l target/classes/WordCount.class # 若输出 ".class" 文件,说明编译成功;否则检查代码语法或目录 # 打包 mvn package 3.3 提交任务到 Spark 集群 1. 上传 JAR 到 HDFS: hdfs dfs -put -f target/spark-wordcount-1.0-SNAPSHOT.jar /spark-jars/ 2. 删除旧输出目录(避免冲突): hdfs dfs -rm -r /spark-wordcount/output 3. 提交任务: $SPARK_HOME/bin/spark-submit \ --master spark://192.168.10.102:7077 \ --class WordCount \ hdfs://192.168.10.102:8020/spark-jars/spark-wordcount-1.0-SNAPSHOT.jar \ /spark-wordcount/input \ /spark-wordcount/output 4. 问题:版本过低需要升级 解决步骤:升级 Maven 到 3.3.9 及以上版本 步骤 1:查看当前 Maven 版本(确认问题) 执行以下命令,查看当前 Maven 版本: mvn -v 如果输出的`Maven home`对应的版本低于`3.3.9`(例如`3.0.5`),则需要升级。 步骤 2:下载并安装兼容的 Maven 版本 推荐安装Maven 3.6.3(兼容 3.3.9 + 要求,且稳定): 1. 进入临时目录下载安装包: cd /tmp wget http://maven.aliyun.com/nexus/content/groups/public/org/apache/maven/apache-maven/3.6.3/apache-maven-3.6.3-bin.tar.gz 2. 解压到`/opt/module`目录(与你的其他软件目录统): sudo tar -zxvf apache-maven-3.6.3-bin.tar.gz -C /opt/module/ 3. 重命名目录(方便后续配置): sudo mv /opt/module/apache-maven-3.6.3 /opt/module/maven-3.6.3 4. 配置环境变量(替换旧版本 Maven):编辑`/etc/profile`文件: sudo vi /etc/profile 添加以下内容(分别在hadoop102.103.104上进行配置)(确保覆盖系统默认的 Maven 路径): export MAVEN_HOME=/opt/module/maven-3.6.3 export PATH=$MAVEN_HOME/bin:$PATH 生效配置: source /etc/profile 步骤 3:验证 Maven 版本是否升级成功 再次执行: mvn -v 若输出类似以下内容,说明升级成功: ```plaintext Apache Maven 3.6.3 (cecedd343002696d0abb50b32b541b8a6ba2883f) Maven home: /opt/module/maven-3.6.3 Java version: 1.8.0_212, vendor: Oracle Corporation, runtime: /opt/module/jdk1.8.0_212/jre 根据以上内容,生成流程图,共四部分分别是总体介绍,详细操作,问题解决和总结与讨论
最新发布
10-20
flowchart TD %% 定义颜色 classDef感知层 fill:#E6F3FF,stroke:#1E90FF,stroke-width:2px; classDef边缘层 fill:#F0F8E6,stroke:#32CD32,stroke-width:2px; classDef传输层 fill:#FFF8E6,stroke:#FFA500,stroke-width:2px; classDef云端层 fill:#F8E6FF,stroke:#9370DB,stroke-width:2px; classDef应用层 fill:#FFE6F2,stroke:#FF69B4,stroke-width:2px; %% 1. 感知层 subgraph 感知层[1. 感知层-数据采集] A1[双光谱高空云台<br>(可见光+远红外)] A2[RFID标签/读卡器<br>(重点个体追踪)] A3[环境传感器<br>(温湿度/水质/光照)] A4[声学传感器<br>(鸟鸣辅助识别)] A5[地面微型相机<br>(鸟巢/地面行为)] end class 感知层 classDef感知层; %% 2. 边缘计算层 subgraph 边缘层[2. 边缘计算层-预处理] B1[华为Atlas 200I终端] B2[EN-BLS物种识别模型] B3[行为识别模块<br>(YOLOv8+TCN)] B4[轨迹修正模块<br>(卡尔曼滤波)] B5[本地SSD缓存<br>(128GB)] B1 --> B2 & B3 & B4 & B5 end class 边缘层 classDef边缘层; %% 3. 传输层 subgraph 传输层[3. 传输层-数据链路] C1[多链路通信网关] C2[4G/5G(高带宽)] C3[NB-IoT/Sub-1G(广覆盖/低功耗)] C4[蓝牙(近场调试)] C5[断点续传模块] C1 --> C2 & C3 & C4 & C5 end class 传输层 classDef传输层; %% 4. 云端平台层 subgraph 云端层[4. 云端平台层-分析存储] D1[分布式存储集群<br>(Hadoop+HBase)] D2[实时流处理引擎<br>(Kafka+Spark)] D3[多因子关联分析模块<br>(随机森林)] D4[AI模型训练平台<br>(TensorFlow)] D5[档案管理系统<br>(个体/种群档案)] D2 --> D1 & D3 & D4 & D5 end class 云端层 classDef云端层; %% 5. 应用层 subgraph 应用层[5. 应用层-用户交互] E1[手机APP<br>(预警/查数据)] E2[电脑Web端<br>(分析/导图表)] E3[平板轻量化Web<br>(现场巡检)] E4[第三方接口<br>(驱鸟/林业平台)] end class 应用层 classDef应用层; %% 数据流连接 感知层 -->|原始数据| 边缘层 边缘层 -->|有效数据| 传输层 传输层 -->|可靠传输| 云端层 云端层 -->|分析结果/图表| 应用层
10-12
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值