2.scala快速入门-基础+集合+单词计数（1）

本文介绍了Scala编程的基础，包括变量声明、常用类型、条件表达式和块表达式。详细讲解了while和for循环的使用，强调Scala中不支持i++和i--操作。此外，还介绍了数组、映射Map和元组的概念，特别是数组的常用算法如filter和map。文章最后提到了Scala的Lazy特性及其在单词计数中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.Scala概念：

Scala是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。

2.Scala基础：

2.1 变量声明：

object VariableTest {
  def main(args: Array[String]) {
    //使用val定义的变量值是不可变的，相当于java里用final修饰的变量
    val i = 1
    //使用var定义的变量是可变的，在Scala中鼓励使用val
    var s = "hello"
    //Scala编译器会自动推断变量的类型，必要的时候可以指定类型
    //变量名在前，类型在后
    val str: String = "world"
  }
}

2.2 常用类型：

Scala 没有象java 有基本数据类型和包装类型之分。我们可以认为scala里面的都是包装类型。

常用的类型有 Byte、Char、Short、Int、Long、Float和Double（包装类型）和一个Boolean类型。

2.3 条件表达式：

Scala的的条件表达式比较简洁，例如：

object ConditionTest {
  def main(args: Array[String]) {
    val x = 1
    //判断x的值，将结果赋给y
    val y = if (x > 0) 1 else -1
    //打印y的值
    println(y)

    //支持混合类型表达式
    val z = if (x > 1) 1 else "error"
    //打印z的值
    println(z)

    //如果缺失else，相当于if (x > 2) 1 else ()
    val m = if (x > 2) 1 
    println(m)

    //在scala中每个表达式都有值，scala中有个Unit类，写做(),相当于Java中的void
    val n = if (x > 2) 1 else ()
    println(n)

    //if和else if
    val k = if (x < 0) 0
    else if (x >= 1) 1 else -1
    println(k)
  }
}

总结：

1）第一个事：if条件语句是有返回值的

2）第二个事：返回值的数据类型会自动推断

2.4 块表达式：

object BlockExpressionTest {
  def main(args: Array[String]) {
    val x = 0
    //在scala中{}中课包含一系列表达式，块中最后一个表达式的值就是块的值
    //下面就是一个块表达式
    val result = {
      if (x < 0){
        -1
      } else if(x >= 1) {
        1
      } else {
        "error"
      }

    }
    //result的值就是块表达式的结果
    println(result)
  }
}

var a, b, c = 0; if(a < 10) { b = b + 1;  c=c + 1 ;c}

注意：赋值表达式的返回值是空

2.5 循环：

2.5.1 while循环

var n=10;
while( n > 0){
  println(n)
  n-=1
}

总结：

1）while使用跟java一模一样

2）注意点：在scala里面不支持i++ i-- 等操作

统一写成 i-=1

2.5.2 for循环

在scala中有for循环和while循环，用for循环比较多

for循环语法结构：for(i <- 表达式/数组/集合)

object ForTest {
  def main(args: Array[String]) {
    //for(i <- 表达式),表达式1 to 10返回一个Range（区间）
    //每次循环将区间中的一个值赋给i
    for (i <- 1 to 10)
      println(i)

    //for(i <- 数组)
    val arr = Array("a", "b", "c")
    for (i <- arr)
      println(i)

    //高级for循环
    //每个生成器都可以带一个条件，注意：if前面没有分号
    for(i <- 1 to 3; j <- 1 to 3 if i != j)
      print((10 * i + j) + " ")
    println()

    //for推导式：如果for循环的循环体以yield开始，则该循环会构建出一个集合
    //每次迭代生成集合中的一个值
    val v = for (i <- 1 to 10) yield i * 10
    println(v)

  }

}

总结：

1）总结while 循环的使用方式跟java一样

2）Scala里面没有++ --的操作，如果非要向实现类似的操作，那么使用的是 a -= 1操作

3）Scala里面没有运算符，都是一些方法，只不过这些方法的方法名比较特别 +

4）常用的表达式 1 to 10 [] 1 until 10 until [)

5）for循环的语法是 (for <- 表达式/集合/数组)

6）For循环支持多重for循环

7）For循环可以写if条件表达式，并且表达式之前没有分号

8）如果我们要想for循环有返回值或者返回来一个新的集合在循环体前使用关键字yield

2.6 调用方法和函数

Scala中的+ - * / %等操作符的作用与Java一样，位操作符& | ^ >> <<也一样。只是有

一点特别的：这些操作符实际上是方法。例如：a + b是如下方法调用的简写：a.+(b) a方法 b可以写成a.方法(b)

2.7 方法和函数

2.7.1 定义方法：

方法的返回值类型可以不写，编译器可以自动推断出来，但是对于递归函数，必须指定返回类型

注意：函数体应该改成叫方法体！！！

如果不写等号，代表没有返回值。

2.7.2 定义函数

2.7.3 方法和函数的区别

在函数式编程语言中，函数是“头等公民”，它可以像任何其他数据类型一样被传递和操作

案例：首先定义一个方法，再定义一个函数，然后将函数传递到方法里面

object MethodAndFunctionTest {
  //定义一个方法
  //方法m2参数要求是一个函数，函数的参数必须是两个Int类型
  //返回值类型也是Int类型
  def m1(f: (Int, Int) => Int) : Int = {
    f(2, 6)
  }

  //定义一个函数f1，参数是两个Int类型，返回值是一个Int类型
  val f1 = (x: Int, y: Int) => x + y
  //再定义一个函数f2
  val f2 = (m: Int, n: Int) => m * n

  //main方法
  def main(args: Array[String]) {

    //调用m1方法，并传入f1函数
    val r1 = m1(f1)
    println(r1)

    //调用m1方法，并传入f2函数
    val r2 = m1(f2)
    println(r2)
  }
}

2.7.4 将方法转换成函数

备注：可以看出，含有def的是方法，喊有=>的是函数，但后面我们不会进行区分，我们说的函数即是方法，方法即是函数。

2.8 数组

2.8.1 定长数组和变长数组

import scala.collection.mutable.ArrayBuffer


object ArrayTest {

  def main(args: Array[String]) {

    //初始化一个长度为8的定长数组，其所有元素均为0
    val arr1 = new Array[Int](8)
    //直接打印定长数组，内容为数组的hashcode值
    println(arr1)
    //将数组转换成数组缓冲，就可以看到原数组中的内容了
    //toBuffer会将数组转换长数组缓冲
    println(arr1.toBuffer)

    //注意：如果new，相当于调用了数组的apply方法，直接为数组赋值
    //初始化一个长度为1的定长数组
    val arr2 = Array[Int](10)
    println(arr2.toBuffer)

    //定义一个长度为3的定长数组
    val arr3 = Array("hadoop", "storm", "spark")
    //使用()来访问元素
    println(arr3(2))

    //////////////////////////////////////////////////
    //变长数组（数组缓冲）
    //如果想使用数组缓冲，需要导入import scala.collection.mutable.ArrayBuffer包
    val ab = ArrayBuffer[Int]()
    //向数组缓冲的尾部追加一个元素
    //+=尾部追加元素
    ab += 1
    //追加多个元素
    ab += (2, 3, 4, 5)
    //追加一个数组++=
    ab ++= Array(6, 7)
    //追加一个数组缓冲
    ab ++= ArrayBuffer(8,9)
    //打印数组缓冲ab

    //在数组某个位置插入元素用insert
    ab.insert(0, -1, 0)
    //删除数组某个位置的元素用remove
    ab.remove(8, 2)
    println(ab)

  }
}

2.8.2 遍历数组

1.增强for循环

2.好用的until会生成脚标，0 until 10包含0不包含10

object ForArrayTest {

  def main(args: Array[String]) {
    //初始化一个数组
    val arr = Array(1,2,3,4,5,6,7,8)
    //增强for循环
    for(i <- arr)
      println(i)

    //好用的until会生成一个Range
    //reverse是将前面生成的Range反转
    for(i <- (0 until arr.length).reverse)
      println(arr(i))
  }
}

2.8.3 数组转换

yield关键字将原始的数组进行转换会产生一个新的数组，原始的数组不变

object ArrayYieldTest {
  def main(args: Array[String]) {
    //定义一个数组
    val arr = Array(1, 2, 3, 4, 5, 6, 7, 8, 9)
    //将偶数取出乘以10后再生成一个新的数组
    val res = for (e <- arr if e % 2 == 0) yield e * 10
    println(res.toBuffer)

    //更高级的写法,用着更爽
    //filter是过滤，接收一个返回值为boolean的函数
    //map相当于将数组中的每一个元素取出来，应用传进去的函数
    val r = arr.filter(_ % 2 == 0).map(_ * 10)
    println(r.toBuffer)

  }
}

2.8.4 数组常用算法(重中之重)

filter是过滤，接收一个返回值为boolean的函数
map 相当于将数组中的每一个元素取出来，应用传进去的函数

  arr.filter(_ % 2 == 0).map(_ * 10)

flatMap 和 map 区别：
flatten 压扁数组中有数组压扁后就是一个数组
map + flatten = flatMap

array.map(x=>x.split(",")).flatten 《=》array.flatMap(x=>x.split(","))

reduce
归纳

 val v = Vector(1, 2, 3, 4)
  val v3 = v.reduce((sum, n) => sum + n)
   结果：10

sorted    排序    array.sorted       array.sorted.reverse 降序
sortWith 可以自定义排序方式   array.sortWith((x,y)=>x>y) 降序       x<y 升序
sortBy 排序规则   ，可以自己指定key

array.sortBy((x:Int)=>x)  按数值型排序      array.sortBy((x:Int)=>x+"")  按字符串字典顺序排序

groupBy
分组
foreach
遍历

2.9 映射Map

在Scala中，把哈希表这种数据结构叫做映射

2.9.1 构建映射

2.9.2 获取和修改值

注意：在Scala中，有两种Map，一个是immutable包下的Map，该Map中的内容不可变；另一个是mutable包下的Map，该Map中的内容可变（val var）

注意：通常我们在创建一个集合是会用val这个关键字修饰一个变量（相当于java中的final），那么就意味着该变量的引用不可变，该引用中的内容是不是可变，取决于这个引用指向的集合的类型。

2.10 元组（重要）

映射是K/V对偶的集合，对偶是元组的最简单形式，元组可以装着多个不同类型的值。

2.10.1 创建元组

2.10.2 获取元组中的值

2.10.3 将对偶的集合转成映射

2.10.4 拉链操作

zip命令可以将多个值绑定在一起

注意：如果两个数组的元素个数不一致，拉链操作后生成的数组的长度为较小的那个数组的元素个数。

3.集合

Scala的集合有三大类：序列Seq、集Set、映射Map，所有的集合都扩展自Iterable特质

在Scala中集合有可变（mutable）和不可变（immutable）两种类型，immutable类型的集合初始化后就不能改变了（注意与val修饰的变量进行区别）

3.1 List

Arry 序列

不可变的序列 import scala.collection.immutable._

在Scala中列表要么为空（Nil表示空列表）要么是一个head元素加上一个tail列表。

9 :: List(5, 2) :: 操作符是将给定的头和尾创建一个新的列表

注意：:: 操作符是右结合的，如9 :: 5 :: 2 :: Nil相当于9 :: (5 :: (2 :: Nil))

object ImmutListTest {

  def main(args: Array[String]) {
    //创建一个不可变的集合
    val lst1 = List(1,2,3)
    //将0插入到lst1的前面生成一个新的List
    val lst2 = 0 :: lst1
    val lst3 = lst1.::(0)
    val lst4 = 0 +: lst1
    val lst5 = lst1.+:(0)   （可以忽略）

    //将一个元素添加到lst1的后面产生一个新的集合
    val lst6 = lst1 :+ 3

    val lst0 = List(4,5,6)
    //将2个list合并成一个新的List
    val lst7 = lst1 ++ lst0
    //将lst0插入到lst1前面生成一个新的集合
    val lst8 = lst1 ++: lst0

    //将lst0插入到lst1前面生成一个新的集合
    val lst9 = lst1.:::(lst0)

    println(lst9)
  }
}

可变的序列 import scala.collection.mutable._

import scala.collection.mutable.ListBuffer

object MutListTest extends App{
  //构建一个可变列表，初始有3个元素1,2,3
  val lst0 = ListBuffer[Int](1,2,3)
  //创建一个空的可变列表
  val lst1 = new ListBuffer[Int]
  //向lst1中追加元素，注意：没有生成新的集合
  lst1 += 4
  lst1.append(5)

  //将lst1中的元素最近到lst0中， 注意：没有生成新的集合
  lst0 ++= lst1

  //将lst0和lst1合并成一个新的ListBuffer 注意：生成了一个集合
  val lst2= lst0 ++ lst1

  //将元素追加到lst0的后面生成一个新的集合
  val lst3 = lst0 :+ 5
}

3.2 Set

不可变的Set

import scala.collection.immutable.HashSet

object ImmutSetTest extends App{
  val set1 = new HashSet[Int]()
  //将元素和set1合并生成一个新的set，原有set不变
  val set2 = set1 + 4
  //set中元素不能重复
  val set3 = set1 ++ Set(5, 6, 7)
  val set0 = Set(1,3,4) ++ set1
  println(set0.getClass)
}

可变的Set

import scala.collection.mutable

object MutSetTest extends App{
  //创建一个可变的HashSet
  val set1 = new mutable.HashSet[Int]()
  //向HashSet中添加元素
  set1 += 2
  //add等价于+=
  set1.add(4)
  set1 ++= Set(1,3,5)
  println(set1)
  //删除一个元素
  set1 -= 5
  set1.remove(2)
  println(set1)
}

3.3 Map

import scala.collection.mutable

object MutMapTest extends App{
  val map1 = new mutable.HashMap[String, Int]()
  //向map中添加数据
  map1("spark") = 1
  map1 += (("hadoop", 2))
  map1.put("storm", 3)
  println(map1)

  //从map中移除元素
  map1 -= "spark"
  map1.remove("hadoop")
  println(map1)
}

4.Lazy（这个特性特别屌）

在Scala里面提供了lazy的特性，如果将一个变量设置为lazy，这个变量只有在第一次使用的时候才会发生计算。

单词计数：

reduceByKey:

例：
you,1
jump,1
jump,1
i,1
相当于先对key进行分组
{you,<1>}
{jump,<1,1>}
{i,<1>}
然后再reduce
you  1
jump 2
i 1

sortByKey
通过key进行排序

scala下：
val array=Array("you,jump","i,jump")

array.flatMap(x=>x.split(",")).map(word=>(word,1)).groupBy(t=>t._1).map(x=>x._1+"->"+x._2.length).foreach(line=>println(line))

spark下：
val array=sc.textFile("hdfs://myha01/hello.txt")

array.flatMap( line => line.split(",")).map( word => (word,1)).reduceByKey((x,y)=>x+y).map( wc => (wc._2,wc._1)).sortByKey(false).foreach( wc  => println( wc._2 + "  "+ wc._1))

array.flatMap( line => line.split(",")).map( word => (word,1)).reduceByKey((x,y)=>x+y).sortBy( tuple =>  tuple._2,false).foreach( wc  => println( wc._2 + "  "+ wc._1))