Spark Core:第一章 Spark Shell

本文介绍了如何使用Spark Shell进行交互式编程,包括启动Spark Shell、编写并执行WordCount程序,以及解决启动过程中遇到的问题。详细步骤涵盖从启动HDFS、上传文件,到在shell中编写和运行程序,最后在IDEA中实现相同功能。同时,文章还讨论了一个Hive配置警告的解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Spark Core:第一章 spark shell



—>Spark知识点总结导航<—


一、关于spark-shell

  spark-shell是spark自带的交互式shell程序,方便用户进行交互式编程,用户可以在该命令行下用scala编写spark程序。


二、启动spark-shell

  开启HDFS和spark集群
在这里插入图片描述
~/software/spark/bin/spark-shell
(如果不成功请参考文末的Q1)
在这里插入图片描述

  • 注意:
    如果启动spark shell时没有指定master地址,但是也可以正常启动spark shell和执行spark shell中的程序,其实是启动了spark的cluster模式,如果spark是单节点,并且没有指定slave文件,这个时候如果打开spark-shell 默认是local模式
  • Local模式是master和worker在同同一进程内
  • Cluster模式是master和worker在不同进程内

三、spark-shell中编写WordCount程序

1. 启动HDFS

在这里插入图片描述

2. 上传文件到HDFS

在这里插入图片描述 在这里插入图片描述

3. spark-shell中编写程序

	sc.textFile("hdfs://Cloud00:9000/RELEASE").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).saveAsTextFile("hdfs://Cloud00:9000/out")

在这里插入图片描述

  • 说明:
  • sc是SparkContext对象,该对象时提交spark程序的入口
  • textFile(hdfs://Cloud01:9000/RELEASE)是hdfs中读取数据
  • flatMap(_.split(" "))先map再压平
  • map((_,1))将单词和1构成元组
  • reduceByKey(+)按照key进行reduce,并将value累加
  • saveAsTextFile(“hdfs:// Cloud01:9000/out”)将结果写入到hdfs中

4. hdfs命令查看结果

	hdfs dfs -cat hdfs://Cloud00:9000/out/p*

在这里插入图片描述


四、IDEA中编写WordCount程序在这里插入图片描述

1. 配置maven配置文件

	<dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.11</artifactId>
        <version>2.1.1</version>
	</dependency>

在这里插入图片描述

2. 编写程序

    package com.spark.core
    
    import org.apache.spark.{SparkConf, SparkContext}
    
    object WordCount {
      def main(args: Array[String]): Unit = {
        val conf = new SparkConf().setMaster("local").setAppName("wordcount")
    
        val sc = new SparkContext(conf)
        //读取输入文件
        val line = sc.textFile("hdfs://Cloud00:9000/RELEASE")
        //按空格分割
        val value = line.flatMap(_.split(" "))
        //单词从1开始计数
        val word = value.map((_, 1))
        //对结果聚合
        val count = word.reduceByKey(_ + _)
        //保存输出文件格式和路径
        count.saveAsTextFile("/home/duck/sparkout")
      }
    }

3. 打包上传

在这里插入图片描述在这里插入图片描述

4. 启动HDFS和spark集群

请查看hdfs启动spark集群启动

5. spark命令提交任务

    bin/spark-submit \
    --class com.spark.core.WordCount \
    /home/duck/Lesson-1.0-SNAPSHOT.jar

在这里插入图片描述

6. 查看程序执行结果

在这里插入图片描述


五、出现的问题

Q1: WARN HiveConf: HiveConf of name hive.server2.thrift.client.user does not exist

(1) 描述
在这里插入图片描述

(2) 原因:找不到元数据路径

(3) 解决:
  拷贝hive的配置文件hive-site.xml到spark/conf下

	sudo cp ~/software/hive/conf/hive-site.xml /

在这里插入图片描述

  开启元数据监听

	hive --service metastore&

在这里插入图片描述


--->有问题请联系QQ1436281495^_^

Vivado2023是一款集成开发环境软件,用于设计和验证FPGA(现场可编程门阵列)和可编程逻辑器件。对于使用Vivado2023的用户来说,license是必不可少的。 Vivado2023的license是一种许可证,用于授权用户合法使用该软件。许可证分为多种类型,包括评估许可证、开发许可证和节点许可证等。每种许可证都有不同的使用条件和功能。 评估许可证是免费提供的,让用户可以在一段时间内试用Vivado2023的全部功能。用户可以使用这个许可证来了解软件的性能和特点,对于初学者和小规模项目来说是一个很好的选择。但是,使用评估许可证的用户在使用期限过后需要购买正式的许可证才能继续使用软件。 开发许可证是付费的,可以永久使用Vivado2023的全部功能。这种许可证适用于需要长期使用Vivado2023进行开发的用户,通常是专业的FPGA设计师或工程师。购买开发许可证可以享受Vivado2023的技术支持和更新服务,确保软件始终保持最新的版本和功能。 节点许可证是用于多设备或分布式设计的许可证,可以在多个计算机上安装Vivado2023,并共享使用。节点许可证适用于大规模项目或需要多个处理节点进行设计的用户,可以提高工作效率和资源利用率。 总之,Vivado2023 license是用户在使用Vivado2023时必须考虑的问题。用户可以根据自己的需求选择合适的许可证类型,以便获取最佳的软件使用体验。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值