1.Scala概念:
Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。
2.Scala基础:
2.1 变量声明:
object VariableTest {
def main(args: Array[String]) {
//使用val定义的变量值是不可变的,相当于java里用final修饰的变量
val i = 1
//使用var定义的变量是可变的,在Scala中鼓励使用val
var s = "hello"
//Scala编译器会自动推断变量的类型,必要的时候可以指定类型
//变量名在前,类型在后
val str: String = "world"
}
}
2.2 常用类型:
Scala 没有象java 有 基本数据类型和包装类型之分。 我们可以认为scala里面的都是包装类型。
常用的类型有 Byte、Char、Short、Int、Long、Float和Double(包装类型)和一个Boolean类型。
2.3 条件表达式:
Scala的的条件表达式比较简洁,例如:
object ConditionTest {
def main(args: Array[String]) {
val x = 1
//判断x的值,将结果赋给y
val y = if (x > 0) 1 else -1
//打印y的值
println(y)
//支持混合类型表达式
val z = if (x > 1) 1 else "error"
//打印z的值
println(z)
//如果缺失else,相当于if (x > 2) 1 else ()
val m = if (x > 2) 1
println(m)
//在scala中每个表达式都有值,scala中有个Unit类,写做(),相当于Java中的void
val n = if (x > 2) 1 else ()
println(n)
//if和else if
val k = if (x < 0) 0
else if (x >= 1) 1 else -1
println(k)
}
}
总结:
1)第一个事:if条件语句是有返回值的
2)第二个事:返回值的数据类型会自动推断
2.4 块表达式:
object BlockExpressionTest {
def main(args: Array[String]) {
val x = 0
//在scala中{}中课包含一系列表达式,块中最后一个表达式的值就是块的值
//下面就是一个块表达式
val result = {
if (x < 0){
-1
} else if(x >= 1) {
1
} else {
"error"
}
}
//result的值就是块表达式的结果
println(result)
}
}
var a, b, c = 0; if(a < 10) { b = b + 1; c=c + 1 ;c}
注意: 赋值表达式的返回值是空
2.5 循环:
2.5.1 while循环
var n=10;
while( n > 0){
println(n)
n-=1
}
总结:
1)while使用跟java一模一样
2)注意点:在scala里面不支持i++ i-- 等操作
统一写成 i-=1
2.5.2 for循环
在scala中有for循环和while循环,用for循环比较多
for循环语法结构:for(i <- 表达式/数组/集合)
object ForTest {
def main(args: Array[String]) {
//for(i <- 表达式),表达式1 to 10返回一个Range(区间)
//每次循环将区间中的一个值赋给i
for (i <- 1 to 10)
println(i)
//for(i <- 数组)
val arr = Array("a", "b", "c")
for (i <- arr)
println(i)
//高级for循环
//每个生成器都可以带一个条件,注意:if前面没有分号
for(i <- 1 to 3; j <- 1 to 3 if i != j)
print((10 * i + j) + " ")
println()
//for推导式:如果for循环的循环体以yield开始,则该循环会构建出一个集合
//每次迭代生成集合中的一个值
val v = for (i <- 1 to 10) yield i * 10
println(v)
}
}
总结:
1)总结while 循环的使用方式跟java一样
2)Scala里面没有++ --的操作,如果非要向实现类似的操作,那么使用的是 a -= 1操作
3)Scala里面没有运算符,都是一些方法,只不过这些方法的方法名比较特别 +
4)常用的表达式 1 to 10 [] 1 until 10 until [)
5)for循环的语法是 (for <- 表达式/集合/数组)
6)For循环支持多重for循环
7)For循环可以写if条件表达式,并且表达式之前没有分号
8)如果我们要想for循环 有返回值或者返回来一个新的集合在循环体前使用关键字yield
2.6 调用方法和函数
Scala中的+ - * / %等操作符的作用与Java一样,位操作符& | ^ >> <<也一样。只是有
一点特别的:这些操作符实际上是方法。例如:a + b是如下方法调用的简写:a.+(b) a方法 b可以写成a.方法(b)
2.7 方法和函数
2.7.1 定义方法:
方法的返回值类型可以不写,编译器可以自动推断出来,但是对于递归函数,必须指定返回类型
注意:函数体 应该改成叫方法体!!!
如果不写等号,代表没有返回值。
2.7.2 定义函数
2.7.3 方法和函数的区别
在函数式编程语言中,函数是“头等公民”,它可以像任何其他数据类型一样被传递和操作
案例:首先定义一个方法,再定义一个函数,然后将函数传递到方法里面
object MethodAndFunctionTest {
//定义一个方法
//方法m2参数要求是一个函数,函数的参数必须是两个Int类型
//返回值类型也是Int类型
def m1(f: (Int, Int) => Int) : Int = {
f(2, 6)
}
//定义一个函数f1,参数是两个Int类型,返回值是一个Int类型
val f1 = (x: Int, y: Int) => x + y
//再定义一个函数f2
val f2 = (m: Int, n: Int) => m * n
//main方法
def main(args: Array[String]) {
//调用m1方法,并传入f1函数
val r1 = m1(f1)
println(r1)
//调用m1方法,并传入f2函数
val r2 = m1(f2)
println(r2)
}
}
2.7.4 将方法转换成函数
备注:可以看出,含有def的是方法,喊有=>的是函数,但后面我们不会进行区分,我们说的函数即是方法,方法即是函数。
2.8 数组
2.8.1 定长数组和变长数组
import scala.collection.mutable.ArrayBuffer
object ArrayTest {
def main(args: Array[String]) {
//初始化一个长度为8的定长数组,其所有元素均为0
val arr1 = new Array[Int](8)
//直接打印定长数组,内容为数组的hashcode值
println(arr1)
//将数组转换成数组缓冲,就可以看到原数组中的内容了
//toBuffer会将数组转换长数组缓冲
println(arr1.toBuffer)
//注意:如果new,相当于调用了数组的apply方法,直接为数组赋值
//初始化一个长度为1的定长数组
val arr2 = Array[Int](10)
println(arr2.toBuffer)
//定义一个长度为3的定长数组
val arr3 = Array("hadoop", "storm", "spark")
//使用()来访问元素
println(arr3(2))
//////////////////////////////////////////////////
//变长数组(数组缓冲)
//如果想使用数组缓冲,需要导入import scala.collection.mutable.ArrayBuffer包
val ab = ArrayBuffer[Int]()
//向数组缓冲的尾部追加一个元素
//+=尾部追加元素
ab += 1
//追加多个元素
ab += (2, 3, 4, 5)
//追加一个数组++=
ab ++= Array(6, 7)
//追加一个数组缓冲
ab ++= ArrayBuffer(8,9)
//打印数组缓冲ab
//在数组某个位置插入元素用insert
ab.insert(0, -1, 0)
//删除数组某个位置的元素用remove
ab.remove(8, 2)
println(ab)
}
}
2.8.2 遍历数组
1.增强for循环
2.好用的until会生成脚标,0 until 10包含0不包含10
object ForArrayTest {
def main(args: Array[String]) {
//初始化一个数组
val arr = Array(1,2,3,4,5,6,7,8)
//增强for循环
for(i <- arr)
println(i)
//好用的until会生成一个Range
//reverse是将前面生成的Range反转
for(i <- (0 until arr.length).reverse)
println(arr(i))
}
}
2.8.3 数组转换
yield关键字将原始的数组进行转换会产生一个新的数组,原始的数组不变
object ArrayYieldTest {
def main(args: Array[String]) {
//定义一个数组
val arr = Array(1, 2, 3, 4, 5, 6, 7, 8, 9)
//将偶数取出乘以10后再生成一个新的数组
val res = for (e <- arr if e % 2 == 0) yield e * 10
println(res.toBuffer)
//更高级的写法,用着更爽
//filter是过滤,接收一个返回值为boolean的函数
//map相当于将数组中的每一个元素取出来,应用传进去的函数
val r = arr.filter(_ % 2 == 0).map(_ * 10)
println(r.toBuffer)
}
}
2.8.4 数组常用算法(重中之重)
filter是过滤,接收一个返回值为boolean的函数
map 相当于将数组中的每一个元素取出来,应用传进去的函数
arr.filter(_ % 2 == 0).map(_ * 10)
flatMap 和 map 区别:flatten 压扁 数组中有数组 压扁后 就是一个数组
map + flatten = flatMap
array.map(x=>x.split(",")).flatten 《=》array.flatMap(x=>x.split(","))
reduce归纳
val v = Vector(1, 2, 3, 4)
val v3 = v.reduce((sum, n) => sum + n)
结果:10
sorted 排序 array.sorted array.sorted.reverse 降序sortWith 可以自定义排序方式 array.sortWith((x,y)=>x>y) 降序 x<y 升序
sortBy 排序规则 ,可以自己指定key
array.sortBy((x:Int)=>x) 按数值型排序 array.sortBy((x:Int)=>x+"") 按字符串字典顺序排序
groupBy
分组
foreach
遍历
2.9 映射Map
在Scala中,把哈希表这种数据结构叫做映射
2.9.1 构建映射
2.9.2 获取和修改值
注意:在Scala中,有两种Map,一个是immutable包下的Map,该Map中的内容不可变;另一个是mutable包下的Map,该Map中的内容可变 (val var)
注意:通常我们在创建一个集合是会用val这个关键字修饰一个变量(相当于java中的final),那么就意味着该变量的引用不可变,该引用中的内容是不是可变,取决于这个引用指向的集合的类型。
2.10 元组(重要)
映射是K/V对偶的集合,对偶是元组的最简单形式,元组可以装着多个不同类型的值。
2.10.1 创建元组
2.10.2 获取元组中的值
2.10.3 将对偶的集合转成映射
2.10.4 拉链操作
zip命令可以将多个值绑定在一起
注意:如果两个数组的元素个数不一致,拉链操作后生成的数组的长度为较小的那个数组的元素个数。
3.集合
Scala的集合有三大类:序列Seq、集Set、映射Map,所有的集合都扩展自Iterable特质
在Scala中集合有可变(mutable)和不可变(immutable)两种类型,immutable类型的集合初始化后就不能改变了(注意与val修饰的变量进行区别)
3.1 List
Arry 序列
不可变的序列 import scala.collection.immutable._
在Scala中列表要么为空(Nil表示空列表)要么是一个head元素加上一个tail列表。
9 :: List(5, 2) :: 操作符是将给定的头和尾创建一个新的列表
注意::: 操作符是右结合的,如9 :: 5 :: 2 :: Nil相当于9 :: (5 :: (2 :: Nil))
object ImmutListTest {
def main(args: Array[String]) {
//创建一个不可变的集合
val lst1 = List(1,2,3)
//将0插入到lst1的前面生成一个新的List
val lst2 = 0 :: lst1
val lst3 = lst1.::(0)
val lst4 = 0 +: lst1
val lst5 = lst1.+:(0) (可以忽略)
//将一个元素添加到lst1的后面产生一个新的集合
val lst6 = lst1 :+ 3
val lst0 = List(4,5,6)
//将2个list合并成一个新的List
val lst7 = lst1 ++ lst0
//将lst0插入到lst1前面生成一个新的集合
val lst8 = lst1 ++: lst0
//将lst0插入到lst1前面生成一个新的集合
val lst9 = lst1.:::(lst0)
println(lst9)
}
}
可变的序列 import scala.collection.mutable._
import scala.collection.mutable.ListBuffer
object MutListTest extends App{
//构建一个可变列表,初始有3个元素1,2,3
val lst0 = ListBuffer[Int](1,2,3)
//创建一个空的可变列表
val lst1 = new ListBuffer[Int]
//向lst1中追加元素,注意:没有生成新的集合
lst1 += 4
lst1.append(5)
//将lst1中的元素最近到lst0中, 注意:没有生成新的集合
lst0 ++= lst1
//将lst0和lst1合并成一个新的ListBuffer 注意:生成了一个集合
val lst2= lst0 ++ lst1
//将元素追加到lst0的后面生成一个新的集合
val lst3 = lst0 :+ 5
}
3.2 Set
不可变的Set
import scala.collection.immutable.HashSet
object ImmutSetTest extends App{
val set1 = new HashSet[Int]()
//将元素和set1合并生成一个新的set,原有set不变
val set2 = set1 + 4
//set中元素不能重复
val set3 = set1 ++ Set(5, 6, 7)
val set0 = Set(1,3,4) ++ set1
println(set0.getClass)
}
可变的Set
import scala.collection.mutable
object MutSetTest extends App{
//创建一个可变的HashSet
val set1 = new mutable.HashSet[Int]()
//向HashSet中添加元素
set1 += 2
//add等价于+=
set1.add(4)
set1 ++= Set(1,3,5)
println(set1)
//删除一个元素
set1 -= 5
set1.remove(2)
println(set1)
}
3.3 Map
import scala.collection.mutable
object MutMapTest extends App{
val map1 = new mutable.HashMap[String, Int]()
//向map中添加数据
map1("spark") = 1
map1 += (("hadoop", 2))
map1.put("storm", 3)
println(map1)
//从map中移除元素
map1 -= "spark"
map1.remove("hadoop")
println(map1)
}
4.Lazy(这个特性特别屌)
在Scala里面提供了lazy的特性,如果将一个变量设置为lazy,这个变量只有在第一次使用的时候才会发生计算。
单词计数:
reduceByKey:
例:
you,1
jump,1
jump,1
i,1
相当于先对key进行分组
{you,<1>}
{jump,<1,1>}
{i,<1>}
然后再reduce
you 1
jump 2
i 1
sortByKey通过key进行排序
scala下:
val array=Array("you,jump","i,jump")
array.flatMap(x=>x.split(",")).map(word=>(word,1)).groupBy(t=>t._1).map(x=>x._1+"->"+x._2.length).foreach(line=>println(line))
spark下:
val array=sc.textFile("hdfs://myha01/hello.txt")
array.flatMap( line => line.split(",")).map( word => (word,1)).reduceByKey((x,y)=>x+y).map( wc => (wc._2,wc._1)).sortByKey(false).foreach( wc => println( wc._2 + " "+ wc._1))
array.flatMap( line => line.split(",")).map( word => (word,1)).reduceByKey((x,y)=>x+y).sortBy( tuple => tuple._2,false).foreach( wc => println( wc._2 + " "+ wc._1))