scala入门<转>

有必要把scala的入门记录下来。

scala几要素:

1.immutable,scala可以创建immutable的对象,这样在并发编程中,可以不需要使用同步,可以不适用互斥。

2.FP,可以提高代码的简洁度和提高编码的效率,有时候编码也更加简单。

3.基于JVM,编译成Bytecode,可以和java相互作用。

4.基于事件的并发模型

5.静态强类型语言,使用类型推断使得代码非常的简洁。

 

scala 语法与一些概念

1.

val  a ="hello world"  //不需要指定类型,scala可以进行类型推断

var b =2

b =3 //val为immutable对象,var为mutable对象,优先使用val

2.

复制代码
/ **
*scala其实没有运算符重载,因为从来都没有运算符
*只是方法可以定义成运算符的模样
*
**/
class Operators(val a: Int) {
def +(other: Operators): Int = {
this.a + other.a
}
}
object Operators {
def main(args: Array[String]) {
val one = new Operators(1)
val two = new Operators(1)
one + two
}
}
复制代码

3.

复制代码
// 构造器分主构造器和辅助构造器
class Operators(var a: Int) {
var b: Int = _


//辅助构造器的第一句调用必须是调用其他构造器
//编译器会给a生成一个get方法:a(),其实也会生成set方法
def this(a: Int, b: Int) {
this(a)
this.b = b
}
def +(other: Operators): Int = {
this.a + other.a
}
}
复制代码

4.

复制代码
class Singleton {

}

//object Singleton是class Singleton的伴生对象,不能有辅助构造器,主构造器也不能有参数
object Singleton {
def staticmethod ={

}
}
object Test{
//可以直接调用 认为是java中的static
Singleton staticmethod
}
复制代码

5.

复制代码
class Protected {

private def privateMethd{}

protected def protectedMethd{ privateMethd}

/**
* private[this] 只有当前实例能访问,其它类和实例不能访问
*/
private[example] def accessMethd{}

}

class Sub extends Protected{
//def start1{privateMethd} error 因为private的原因
//默认是public的
def start2{protectedMethd} //ok protected对于子类可见

//ok
def start3(sub:Sub){
sub.protectedMethd
}

/**

def start3(pro:Protected){
pro.protectedMethd //error 在子类中,传入的父类参数是不能调用自己的protected方法的
}

*/
}

class Other {
// def start{protectedMethd} error protected只对于子类可见 对于package的类不可见
def start2(pro:Protected){pro.accessMethd} //ok 使用了[AccessQualifier] 指定包或者类是可见的
}

class Outer{
def start(inner:Inner){inner start}

class Inner{
private[Outer] def start(){} //使用[AccessQualifier]指定类时,必须是包围类(类似java的内部类)
}
}
复制代码

6.

复制代码
  /**
* Tuples和多返回值 java里需要使用类实例返回
*
* 函数定义一般是这样:
*
* def methodName(paramName:paramType):(returnType)={code body}
*
* paramName:paramType可以是多个的;returnType可以多个,也可以省略掉(类型推断会推断出来);=代表函数有返回值?
*
*
* 此函数返回一个Tuples
*/

def getPersonInfo(index: Int) = {
("firstName", "secondName", "address")

}
复制代码



自适应类型和类型推断

先看scala和java的定义int变量的比较:

    //java
int i = 0;

//scala
var i =0

java里面必须之类变量的类型,而scala中是可以推断出来-->类型推断,编译器进行类型检查,在不能进行类型推断的时候必须指明类型。

scala的类型层次:

 



  Any是所有的父类型,Noting是所有类型的子类型。

  Any是一个抽象类,AnyRef可以对应是java的Object类,AnyVal可以对应java的Int,Double等

  Noting是抽象的,是类型推断的帮手,当方法是抛出异常或者返回一个类型犹豫不绝的时候,Noting是可以上场的,Noting可以代表任何东西,甚至是异常.

  Option [T] 类型: 为了表达清楚一个方法返回null的情形和可以对null进行具体的检查,定义了Option[T]类型,这个是个抽象类,他的子类型Some[T]和None

  代表了返回具体的类型和没有返回(返回空类型):

复制代码
final case class Some[+A](x: A) extends Option[A] {
def isEmpty = false
def get = x
}


case object None extends Option[Nothing] {
def isEmpty = true
def get = throw new NoSuchElementException("None.get")
}
复制代码

scala容器的类型推断:

复制代码
    var list1 = new ArrayList[Int]
var list2 = new ArrayList
list2 = list1 // Compilation Error


var list3 = new ArrayList[Any]
list3 = list1 // Compilation Error
复制代码

  这个和java中容器的操作有很大的不同,在默认的情况下,scala不允许将一个持有任意类型的容器赋给另外一个持有其他类型的容器。在实施了协变以后才可以进行。

 

function value和闭包

高阶函数是指以函数为参数的函数,能减少重复代码,把不变的代码形成高阶函数,把变动的地方以函数为参数的形式传入,类似于策略模式。

function value:把函数赋值给变量或者当做参数传给其他函数,scala在内部把函数值实现为特殊类的实例,所以函数值也是对象

 

curry:可以把函数从多个参数转化成多个参数列表:

复制代码
  def before(a: Int, b: Int, c: Int, d: Int) {  //     ||
// ||
} // ||
// ||
def middle(a: Int)(b: Int, c: Int, d: Int) { // ||
// curry
} // ||
// ||
def after(a: Int)(b: Int)(c: Int)(d: Int) { // ||
// \/
}
复制代码


curry化的函数可以有一个或者多个参数未绑定,也就是形成偏应用函数,如:

复制代码
    var foo =after _
var bar =after(1)_

// 输出如下:

// foo: Int => Int => Int => Int => Unit = <function1>
// bar: Int => Int => Int => Unit = <function1>
复制代码

这样做的好处是,形成偏应用函数,当前面几个参数是固定的,后面几个参数是动态变化的,这种写法能去除前面固定参数重复定义,使代码非常简洁:

    //避免第一个参数的重复定义
var bar =after(1)_
bar(1)(3)(4)
//可以使用{}调用
bar(2)(3){5}

Lamda表达式:

scala里面的lamda表达式非常的简单:

operation:(args*) => done 

lamda是否可以简单的理解成是匿名函数?

 

闭包:

复制代码
def loopThrough(number: Int)(closure: Int => Unit) {
for (i <- 1 to number) { closure(i) }
}

  var result = 0
  val addIt = { value:Int => result += value }


loopThrough(10) { addIt }
println("Total of values from 1 to 10 is " + result)

loopThrough(5) { addIt }
println("Total of values from 1 to 5 is " + result)
//结果是55,75 说明作用域外的赋值影响了result
课程名称: 大数据技术原理与应用 专业班级: 数科2304 姓 名: 仇一焯 学 号: 2023002253 指导教师: 陈泽华老师 2025年10月20日 实验 Spark Word Count 一 、实验内容: 基本要求: 完成Spark Word Count 二 、实验工具 虚拟机软件 VMware Workstation Pro17 操作系统 CentOS 7(64 位) ftp工具 XShell 8 Java 版本 jdk1.8.0_212 Hadoop 版本 hadoop-3.1.3 Spark版本 Spark 3.3.0 Maven 版本 Maven 3.6.3 三 、实验过程与截图 1.前置检查(必须执行) 1.1检查Spark集群状态 在 Master 节点(hadoop102)执行以下命令,确认 Master 和 Worker 进程正常运行: - 执行节点:在 HDFS 的主节点(通常是 `hadoop102`)上执行。 - 命令(绝对路径): /opt/module/hadoop-3.1.3/sbin/start-dfs.sh 验证:在所有节点上执行 `jps` 命令。 - `hadoop102` 应看到 `NameNode` 和 `DataNode`。 - `hadoop103` 应看到 `DataNode`。 - `hadoop104` 应看到 `DataNode` 和 `SecondaryNameNode` 一键启动集群(自动启动 Master 和所有 Worker): $SPARK_HOME/sbin/start-all.sh # 查看Master节点进程 Jps # 查看Worker节点进程(分别在hadoop103、hadoop104执行) Jps 解释:jps命令用于查看 Java 进程,需确保 hadoop102 有Master进程,hadoop103/104 有Worker进程,否则需重启集群:$SPARK_HOME/sbin/start-all.sh。 1.2验证HDFS服务可用性 词频统计需通过 HDFS 存储输入输出数据,执行以下命令检查 HDFS 状态: # 查看HDFS根目录 hdfs dfs -ls / # 测试HDFS写入权限 hdfs dfs -touchz /test.txt && hdfs dfs -rm /test.txt 解释:通过创建临时文件验证 HDFS 读写权限,若提示`Permission denied`需检查 Hadoop 目录权限配置。 2. 数据准备(HDFS 数据上传) 2.1 创建 HDFS 数据目录 # 创建输入目录(存放待分析文本) hdfs dfs -mkdir -p /spark-wordcount/input # 创建输出目录(后续运行前需删除,此处仅为演示) hdfs dfs -mkdir -p /spark-wordcount/output 2.2 准备本地测试文本 vi /home/atguigu/wordcount-data.txt 粘贴测试内容: Hello Spark Hello Hadoop Spark is fast Hadoop is stable Hello Spark HBase Spark Spark Spark 2.3上传文本到 HDFS hdfs dfs -put /home/atguigu/wordcount-data.txt /spark-wordcount/input/ # 验证上传结果 hdfs dfs -ls /spark-wordcount/input/ 3. 词频统计实现(Scala 语言方案) 3.1编写 Scala 代码 1. 创建代码目录(含 Maven 要求的源码结构) # 创建项目根目录 mkdir -p /home/atguigu/spark-code/scala # 进入项目根目录 cd /home/atguigu/spark-code/scala # 创建 Maven 规定的 Scala 源码目录(必须!否则 Maven 找不到代码) mkdir -p src/main/scala 2. 在正确目录下编写代码 # 注意:代码必须放在 src/main/scala 目录下 vi src/main/scala/WordCount.scala 3. 粘贴代码 // 导入Spark核心依赖(必须完整,避免编译错误) import org.apache.spark.{SparkConf, SparkContext} // 词频统计主类(单例对象,Scala中可作为入口类,类名必须与pom.xml的mainClass一致) object WordCount { def main(args: Array[String]): Unit = { // 1. 配置Spark应用(集群模式下,setMaster可通过spark-submit参数覆盖,更灵活) val conf = new SparkConf() .setAppName("Scala-WordCount") // 应用名称,Web UI可见 // 注:集群提交时建议删除setMaster,通过--master参数指定,避免硬编码 // .setMaster("spark://192.168.10.102:7077") .set("spark.executor.memory", "2g") .set("spark.cores.max", "4") // 2. 创建Spark上下文(核心入口,需确保配置正确) val sc = new SparkContext(conf) sc.setLogLevel("WARN") // 减少日志输出,聚焦结果 // 3. 处理输入输出路径(优先使用命令行参数,适配不同场景) val inputPath = if (args.length > 0) args(0) else "/spark-wordcount/input" val outputPath = if (args.length > 1) args(1) else "/spark-wordcount/output" // 4. 核心逻辑(分步注释,清晰易懂) val wordCounts = sc.textFile(inputPath) // 读取文件:每行作为一个元素 .flatMap(line => line.split("\\s+")) // 分词:按任意空白分割,扁平化为单词 .map(word => (word, 1)) // 标记计数:每个单词映射为(单词, 1) .reduceByKey(_ + _) // 聚合:按单词累加计数(简化写法,等价于(a,b)=>a+b) .sortBy(_._2, ascending = false) // 排序:按词频降序 // 5. 输出结果(控制台+HDFS,双重验证) println("=== 词频统计结果 ===") wordCounts.collect().foreach(println) // 控制台打印(仅适合小数据) wordCounts.saveAsTextFile(outputPath) // 保存到HDFS(分布式场景推荐) // 6. 释放资源(必须执行,避免内存泄漏) sc.stop() } } \- `textFile`:读取 HDFS 或本地文件,返回行级 RDD(弹性分布式数据集),是 Spark 数据处理的基础结构; `flatMap`:扁平化换,将每行文本拆分为单个单词,解决`map`操作可能产生的嵌套数组问题; `reduceByKey`:Spark 核心聚合算子,自动按 key 分组并执行累加,比`groupByKey`更高效(减少网络传输); `collect`:动作算子,将分布式 RDD 数据拉取到 Driver 节点,仅适合小结果集查看。 4. 验证代码位置(关键检查): # 确保代码在 src/main/scala 目录下 ls -l src/main/scala/WordCount.scala # 预期输出:-rw-r--r-- 1 atguigu atguigu ... src/main/scala/WordCount.scala 3.2 打包 Scala 代码(Maven 方式) 1.创建 `pom.xml`: vi /home/atguigu/spark-code/scala/pom.xml 复制粘贴以下配置(适配 Spark 3.3.0 和 Scala 2.12) <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <!-- 项目基本信息(自定义,确保唯一即可) --> <groupId>com.atguigu.spark</groupId> <artifactId>spark-wordcount</artifactId> <version>1.0-SNAPSHOT</version> <!-- 版本管理(关键:Scala与Spark版本必须匹配) --> <properties> <scala.version>2.12.15</scala.version> <!-- Spark 3.3.0适配Scala 2.12.x --> <spark.version>3.3.0</spark.version> <!-- 与集群Spark版本一致 --> <maven.compiler.source>1.8</maven.compiler.source> <!-- 适配JDK 1.8 --> <maven.compiler.target>1.8</maven.compiler.target> </properties> <!-- 依赖配置(仅包含必要依赖,避免冲突) --> <dependencies> <!-- Spark核心依赖(scope=provided:集群已存在,打包不包含) --> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <!-- 后缀_2.12对应Scala版本 --> <version>${spark.version}</version> <scope>provided</scope> </dependency> </dependencies> <!-- 构建配置(核心:确保Scala代码编译并打包进JAR) --> <build> <sourceDirectory>src/main/scala</sourceDirectory> <!-- 指定Scala源码目录 --> <testSourceDirectory>src/main/test</testSourceDirectory> <plugins> <!-- 1. Scala编译插件(必须配置,否则Maven无法编译.scala文件) --> <plugin> <groupId>net.alchim31.maven</groupId> <artifactId>scala-maven-plugin</artifactId> <version>4.5.4</version> <executions> <execution> <id>scala-compile</id> <goals> <goal>compile</goal> <!-- 编译Scala源码 --> <goal>testCompile</goal> </goals> <configuration> <args> <arg>-dependencyfile</arg> <arg>${project.build.directory}/.scala_dependencies</arg> </args> </configuration> </execution> </executions> </plugin> <!-- 2. 打包插件(生成可执行JAR,包含主类信息) --> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-shade-plugin</artifactId> <version>3.3.0</version> <executions> <execution> <phase>package</phase> <goals><goal>shade</goal></goals> <configuration> <!-- 解决依赖冲突:保留最后一个依赖版本 --> <filters> <filter> <artifact>*:*</artifact> <excludes> <exclude>META-INF/*.SF</exclude> <exclude>META-INF/*.DSA</exclude> <exclude>META-INF/*.RSA</exclude> </excludes> </filter> </filters> <!-- 指定主类(必须与Scala代码中的object名称一致) --> <transformers> <transformer implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer"> <mainClass>WordCount</mainClass> <!-- 无包名时直接写类名 --> </transformer> </transformers> </configuration> </execution> </executions> </plugin> </plugins> </build> </project> 编译并打包: # 进入项目根目录 cd /home/atguigu/spark-code/scala # 清理旧文件并编译(首次编译时间较长) mvn clean scala:compile # 【关键验证1】检查是否生成 .class 文件 ls -l target/classes/WordCount.class # 若输出 ".class" 文件,说明编译成功;否则检查代码语法或目录 # 打包 mvn package 3.3 提交任务到 Spark 集群 1. 上传 JAR 到 HDFS: hdfs dfs -put -f target/spark-wordcount-1.0-SNAPSHOT.jar /spark-jars/ 2. 删除旧输出目录(避免冲突): hdfs dfs -rm -r /spark-wordcount/output 3. 提交任务: $SPARK_HOME/bin/spark-submit \ --master spark://192.168.10.102:7077 \ --class WordCount \ hdfs://192.168.10.102:8020/spark-jars/spark-wordcount-1.0-SNAPSHOT.jar \ /spark-wordcount/input \ /spark-wordcount/output 4. 问题:版本过低需要升级 解决步骤:升级 Maven 到 3.3.9 及以上版本 步骤 1:查看当前 Maven 版本(确认问题) 执行以下命令,查看当前 Maven 版本: mvn -v 如果输出的`Maven home`对应的版本低于`3.3.9`(例如`3.0.5`),则需要升级。 步骤 2:下载并安装兼容的 Maven 版本 推荐安装Maven 3.6.3(兼容 3.3.9 + 要求,且稳定): 1. 进入临时目录下载安装包: cd /tmp wget http://maven.aliyun.com/nexus/content/groups/public/org/apache/maven/apache-maven/3.6.3/apache-maven-3.6.3-bin.tar.gz 2. 解压到`/opt/module`目录(与你的其他软件目录统一): sudo tar -zxvf apache-maven-3.6.3-bin.tar.gz -C /opt/module/ 3. 重命名目录(方便后续配置): sudo mv /opt/module/apache-maven-3.6.3 /opt/module/maven-3.6.3 4. 配置环境变量(替换旧版本 Maven):编辑`/etc/profile`文件: sudo vi /etc/profile 添加以下内容(分别在hadoop102.103.104上进行配置)(确保覆盖系统默认的 Maven 路径): export MAVEN_HOME=/opt/module/maven-3.6.3 export PATH=$MAVEN_HOME/bin:$PATH 生效配置: source /etc/profile 步骤 3:验证 Maven 版本是否升级成功 再次执行: mvn -v 若输出类似以下内容,说明升级成功: ```plaintext Apache Maven 3.6.3 (cecedd343002696d0abb50b32b541b8a6ba2883f) Maven home: /opt/module/maven-3.6.3 Java version: 1.8.0_212, vendor: Oracle Corporation, runtime: /opt/module/jdk1.8.0_212/jre 根据以上内容,生成流程图,一共四部分分别是总体介绍,详细操作,问题解决和总结与讨论
10-20
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值