scala基础

循环

1.for
常用方法:to(前后包含)、until(包左不包右)
单层循环for(变量名<-列表)
双层循环for (变量名<-列表 ;变量名<-列表 )
守卫 (变量名<-列表 if 布尔表达式 ;变量名<-列表 )
yeild 生成新的列表

方法定义

def methodName (参数名:参数类型, 参数名:参数类型) : [return type] = {
    // 方法体:一系列的代码
}


scala> def add(a:Int, b:Int) : Int = a + b
m1: (x: Int, y: Int)Int

scala> add(1,2)
res10: Int = 3

示例

定义递归方法(求阶乘)

10 * 9 * 8 * 7 * 6 * … * 1

scala> def m2(x:Int):Int = {
     | if(x<= 1) 1
     | else(m2(x-1)*x)
     | }
scala> def m2(x:Int):Int = {
     | if(x<= 1) 1
     | else m2(x-1)*x
     | }

方法的书写规范

def methodName (参数名:参数类型, 参数名:参数类型) : [return type] = {
// 方法体:一系列的代码
}

对于非递归方法,方法的返回值可以省略
def 方法名 (参数名:参数类型…)={方法体}

如果方法体只有一行语句,()可以省略
def 方法名 (参数名:参数类型…)=方法体

方法没有返回值的时候,=可以省略
def 方法名 (参数名:参数类型…)方法体

如果方法没有参数,()可以省略
def 方法名={方法体}

def 方法名={方法体}递归的犯法,返回类型必须定义
def 方法名 (参数名:参数类型......):返回值类型 ={方法体}

方法参数可以设置默认值
def 方法名 (参数名:参数类型=默认值…):返回值类型 ={方法体}

可变参数的方法定义(可变参数放在参数列表的最后)
def 方法名 (参数名:参数类型,参数名:参数类型*…):返回值类型 ={方法体}

数组(可变数组,不可变数组)

创建空的ArrayBuffer变长数组,语法结构:

val/var a = ArrayBuffer[元素类型]()
取值方式 a(下标)

创建带有初始元素的ArrayBuffer

val/var a = ArrayBuffer(元素1,元素2,元素3....)

函数(函数可以作为方法的参数或者返回值,函数是对象,可以赋值给变量)

val 函数变量名 = (参数名:参数类型, 参数名:参数类型....) => 函数体
scala> val func=(x:Int,y:Int)=>x+y
func: (Int, Int) => Int = <function2>

scala> func(9,10)
res27: Int = 19

方法转换为函数

  • 有时候需要将方法转换为函数,作为变量传递,就需要将方法转换为函数
  • 使用_即可将方法转换为函数
scala> def add(x:Int,y:Int)=x+y
add: (x: Int, y: Int)Int

scala> val a = add _
a: (Int, Int) => Int = <function2>

元组

val/var 元组 = (元素1, 元素2, 元素3....)
val/var 元组 = 元素1->元素2
scala> val a = (1, "zhangsan", 20, "beijing")
a: (Int, String, Int, String) = (1,zhangsan,20,beijing)

访问元组 名称._
使用_1、_2、_3…来访问元组中的元素,_1表示访问第一个元素,依次类推

scala> val a = "zhangsan" -> "male"
a: (String, String) = (zhangsan,male)

// 获取第一个元素
scala> a._1
res41: String = zhangsan

// 获取第二个元素
scala> a._2
res42: String = male

列表List nil表示无值

列表是scala中最重要的、也是最常用的数据结构。List具备以下性质:

  • 可以保存重复的值
  • 有先后顺序

不可变列表就是列表的元素、长度都是不可变的。

val/var 变量名 = List(元素1, 元素2, 元素3...)
使用Nil创建一个不可变的空列表
val/var 变量名 = Nil 
追加创建  
val/var 变量名 = 元素1 :: 元素2 :: Nil

可变列表

val/var 变量名 = ListBuffer[Int]()
scala> val listbuffer = ListBuffer[Int]()
listbuffer: scala.collection.mutable.ListBuffer[Int] = ListBuffer()

val/var 变量名 = ListBuffer(元素1,元素2,元素3...)
scala> val a = ListBuffer(1,2,3,4)

取值方式 a(下标)

可变列表操作

  • 获取元素(使用括号访问(索引值))
  • 添加元素(+=)
  • 追加一个列表(++=)
  • 更改元素(使用括号获取元素,然后进行赋值)
  • 删除元素(-=)
  • 转换为List(toList)
  • 转换为Array(toArray)
  • 压平操作 (flatten)

拉链与拉开 列表List (列表长度不一会取对应上的部分)

  • 拉链:使用zip将两个列表,组合成一个元素为元组的列表
  • 拉开:将一个包含元组的列表,解开成包含两个列表的元组

示例

  • 有两个列表
    • 第一个列表保存三个学生的姓名,分别为:zhangsan、lisi、wangwu
    • 第二个列表保存三个学生的年龄,分别为:19, 20, 21
  • 使用zip操作将两个列表的数据"拉"在一起,形成 zhangsan->19, lisi ->20, wangwu->21

参考代码

scala> val a = List("zhangsan", "lisi", "wangwu")
a: List[String] = List(zhangsan, lisi, wangwu)

scala> val b = List(19, 20, 21)
b: List[Int] = List(19, 20, 21)

scala> a.zip(b)
res1: List[(String, Int)] = List((zhangsan,19), (lisi,20), (wangwu,21))

示例

  • 将上述包含学生姓名、年龄的元组列表,解开成两个列表

参考代码

scala> res1.unzip
res2: (List[String], List[Int]) = (List(zhangsan, lisi, wangwu),List(19, 20, 21))

List操作
生成字符串mkstring
获得两个列表的并集 union
获取交集intersect
去重 distinct
获取a列表中b列表没有的 a diff(b)

Set 集合 (元素不重复,无序)

导包后就是可变set
取值:set(加标)

不可变集

创建空的不可变集
var/val 变量名 = Set[类型]()
给定元素创建
var/val 变量名 = Set(	元素1,元素2,元素3.............)
scala> val set = Set(1,1,2,4,55,55,6,77)
set: scala.collection.immutable.Set[Int] = Set(1, 6, 77, 2, 55, 4)

scala> val set = Set[Int](10)
set: scala.collection.immutable.Set[Int] = Set(10)

映射 | map (导包后就可以变成可变MAP 不重复,无序)

取值: map.getOrElse(KEY,默认值)

不可变Map

val/var map = Map(->,->,->...)	// 推荐,可读性更好
val/var map = Map((,), (,), (,), (,)...)

可变Map

定义

定义语法与不可变Map一致。但定义可变Map需要手动导入import scala.collection.mutable.Map

 var map = Map[String,Int]("zhangsan"->30 ,"lisi"->20)

// 修改value
scala> map(“zhangsan”) = 20

列表迭代器 (迭代器有状态,(已经标记最后一个元素)用完需要重新获取)

scala> val a = List(1,1,2,5,6,7)
a: List[Int] = List(1, 1, 2, 5, 6, 7)

scala> val ite = a.iterator
ite: Iterator[Int] = non-empty iterator

scala> while(ite.hasNext){
     | println(ite.next)
     | }
1
1
2
5
6
7

函数式编程

我们将来使用Spark/Flink的大量业务代码都会使用到函数式编程。下面的这些操作是学习的重点。

  • 遍历(foreach)
  • 映射(map)
  • 映射扁平化(flatmap)
  • 过滤(filter)
  • 是否存在(exists)
  • 排序(sorted、sortBy、sortWith)
  • 分组(groupBy)
  • 聚合计算(reduce)
  • 折叠(fold)

- 遍历(foreach)

方法签名

foreach(f: (A) ⇒ Unit): Unit
说明
foreachAPI说明
参数f: (A) ⇒ Unit接收一个函数对象
函数的输入参数为集合的元素,返回值为空
返回值Unit
// 省略参数类型
scala> val a = List(1,2,3,4)
a: List[Int] = List(1, 2, 3, 4)

使用类型推断简化函数定义
a.foreach(x=>println(x))
- 如果方法参数是函数,如果出现了下划线,scala编译器会自动将代码封装到一个函数中
- 参数列表也是由scala编译器自动处理
a.foreach(println(_))


- 映射(map)

map方法接收一个函数,将这个函数应用到每一个元素,返回一个新的列表

方法签名

def map[B](f: (A) ⇒ B): TraversableOnce[B]	
说明
foreachAPI说明
参数f: (A) ⇒ B传入一个函数对象
该函数接收一个类型A(要转换的列表元素),返回值为类型B
返回值TraversableOnce[B]B类型的集合

通过传入一个函数,对集合中的每一个元素进行函数计算

scala> a
res31: List[Int] = List(1, 1, 2, 5, 6, 7)

scala> a.map(x=>x+1)
res33: List[Int] = List(2, 2, 3, 6, 7, 8)

scala> a.map(_+1)
res34: List[Int] = List(2, 2, 3, 6, 7, 8)

- 映射扁平化(flatmap)

定义

可以把flatMap,理解为先map,然后再flatten
参数是一个函数,一个入参,出参是一个列表或者集合
应用场景是1对多

在这里插入图片描述

  • map是将列表中的元素转换为一个List
  • flatten再将整个列表进行扁平化

方法签名

def flatMap[B](f: (A) ⇒ GenTraversableOnce[B]): TraversableOnce[B]
说明
flatmap方法API说明
泛型[B]最终要转换的集合元素类型
参数f: (A) ⇒ GenTraversableOnce[B]传入一个函数对象
函数的参数是集合的元素
函数的返回值是一个集合
返回值TraversableOnce[B]B类型的集合

案例

案例说明

  1. 有一个包含了若干个文本行的列表:“hadoop hive spark flink flume”, “kudu hbase sqoop storm”
  2. 获取到文本行中的每一个单词,并将每一个单词都放到列表中

![在这里插入图片描述](https://img-blog.csdnimg.cn/20191029140827360.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3poeV9UYWlEaQ==,size_16,color_FFFFFF,t_70) 步骤
  1. 使用map将文本行拆分成数组
  2. 再对数组进行扁平化
scala> a.map(x=>x.split(" "))
res48: List[Array[String]] = List(Array(hadoop, hive, spark, flink, flume), Array(kudu, hbase, sqoop, storm))

scala> a.map(x=>x.split(" ")).flatten
res49: List[String] = List(hadoop, hive, spark, flink, flume, kudu, hbase, sqoop, storm)
scala> a.flatMap(_.split(" "))
res52: List[String] = List(hadoop, hive, spark, flink, flume, kudu, hbase, sqoop, storm)

过滤 | filter

def filter(p: (A) ⇒ Boolean): TraversableOnce[A]
说明
filter方法API说明
参数p: (A) ⇒ Boolean传入一个函数对象
接收一个集合类型的参数
返回布尔类型,满足条件返回true, 不满足返回false
返回值TraversableOnce[A]列表

在这里插入图片描述


scala> List(1,2,3,4,5,6,7,8,9).filter(_ % 2 == 0)
res8: List[Int] = List(2, 4, 6, 8)

排序

在scala集合中,可以使用以下几种方式来进行排序

  • sorted默认排序
  • sortBy指定字段排序
  • sortWith自定义排序

sortBy方法签名

def sortBy[B](f: (A) ⇒ B): List[A]

	说明
	
	
| sortBy方法| API | 说明 |
|--|--|--|
| 泛型 | [B]	 |  按照什么类型来进行排序 | 
| 参数 | f: (A) ⇒ B| 传入函数对象<br />接收一个集合类型的元素参数<br />返回B类型的元素进行排序 | 
| 返回值 | List[A]	 |  返回排序后的列表 | 

自定义排序 | sortWith

def sortWith(lt: (A, A) ⇒ Boolean): List[A]
说明
sortWith方法API说明
参数lt: (A, A) ⇒ Boolean传入一个比较大小的函数对象
接收两个集合类型的元素参数
返回两个元素大小,小于返回true,大于返回false
返回值List[A]返回排序后的列表
scala> val a = List(4,6,8,1,6,2,8,3)
a: List[Int] = List(4, 6, 8, 1, 6, 2, 8, 3)

scala> a.sortWith((x,y)=> if(x<y)true else false)
res53: List[Int] = List(1, 2, 3, 4, 6, 6, 8, 8)

scala> a.sortWith((x,y)=> if(x<y)false else true)
res54: List[Int] = List(8, 8, 6, 6, 4, 3, 2, 1)


scala> a.sortWith(_ < _).reverse

map和foreach的区别
map有返回值,foreach没有返回值
map和flatMap的区别
map针对列表的每一个元素,返回的是对应的转化之后的数据,长度一样
flatMap针对每一个元素,返回的是一个列别,最终生成列表的长度大于原来的

分组 | groupBy

def groupBy[K](f: (A) ⇒ K): Map[K, List[A]]
说明
groupBy方法API说明
泛型[K]分组字段的类型
参数f: (A) ⇒ K传入一个函数对象
接收集合元素类型的参数
返回一个K类型的key,这个key会用来进行分组,相同的key放在一组中
返回值Map[K, List[A]]返回一个映射,K为分组字段,List为这个分组字段对应的一组数据

在这里插入图片描述

scala> val a = List("张三"->"男", "李四"->"女", "王五"->"男")
a: List[(String, String)] = List((张三,), (李四,), (王五,))

// 按照性别分组
scala> a.groupBy(_._2)
res0: scala.collection.immutable.Map[String,List[(String, String)]] = Map(-> List((张三,), (王五,)),-> List((李四,)))

// 将分组后的映射转换为性别/人数元组列表
scala> res0.map(x => x._1 -> x._2.size)
res3: scala.collection.immutable.Map[String,Int] = Map(-> 2,-> 1)

聚合方法 :reduce、fold

reduce
参数:上一次聚合结果,当前需要聚合的元素;=》U
fold(初始值)
参数:上一次聚合结果,当前需要聚合的元素;=》U

数据集介绍:垃圾分类检测数据集 一、基础信息 数据集名称:垃圾分类检测数据集 图片数量: 训练集:2,817张图片 验证集:621张图片 测试集:317张图片 总计:3,755张图片 分类类别: - 金属:常见的金属垃圾材料。 - 纸板:纸板类垃圾,如包装盒等。 - 塑料:塑料类垃圾,如瓶子、容器等。 标注格式: YOLO格式,包含边界框和类别标签,适用于目标检测任务。 数据格式:图片来源于实际场景,格式为常见图像格式(如JPEG/PNG)。 二、适用场景 智能垃圾回收系统开发: 数据集支持目标检测任务,帮助构建能够自动识别和分类垃圾材料的AI模型,用于自动化废物分类和回收系统。 环境监测与废物管理: 集成至监控系统或机器人中,实时检测垃圾并分类,提升废物处理效率和环保水平。 学术研究与教育: 支持计算机视觉与环保领域的交叉研究,用于教学、实验和论文发表。 三、数据集优势 类别覆盖全面: 包含三种常见垃圾材料类别,覆盖日常生活中主要的可回收物类型,具有实际应用价值。 标注精准可靠: 采用YOLO标注格式,边界框定位精确,类别标签准确,便于模型直接训练和使用。 数据量适中合理: 训练集、验证集和测试集分布均衡,提供足够样本用于模型学习和评估。 任务适配性强: 标注兼容主流深度学习框架(如YOLO等),可直接用于目标检测任务,支持垃圾检测相关应用。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值