spark笔记之数组、映射、元组、集合

本文介绍了Scala中Spark编程的基础知识,包括数组的定长与变长定义、遍历及转换,映射的构建、获取与修改,元组的创建与值获取,以及集合的种类如List、Set和Map的操作。重点讲解了不同类型的集合及其可变与不可变特性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.1. 数组1.1.1. 定长数组和变长数组

(1)定长数组定义格式:

val arr=new ArrayT

(2)变长数组定义格式:

val arr = ArrayBuffer[T]()

注意需要导包:import scala.collection.mutable.ArrayBuffer

package cn.itcast.scala

import scala.collection.mutable.ArrayBuffer

object ArrayDemo {

  def main(args: Array[String]) {

 

    //初始化一个长度为8的定长数组,其所有元素均为0

    val arr1 = new Array[Int](8)

    //直接打印定长数组,内容为数组的hashcode值

    println(arr1)

    //将数组转换成数组缓冲,就可以看到原数组中的内容了

    //toBuffer会将数组转换长数组缓冲

    println(arr1.toBuffer)

 

    //注意:如果new,相当于调用了数组的apply方法,直接为数组赋值

    //初始化一个长度为1的定长数组

    val arr2 = Array[Int](10)

    println(arr2.toBuffer)

 

    //定义一个长度为3的定长数组

    val arr3 = Array("hadoop", "storm", "spark")

    //使用()来访问元素

    println(arr3(2))

 

    //变长数组(数组缓冲)

    //如果想使用数组缓冲,需要导入import scala.collection.mutable.ArrayBuffer包

    val ab = ArrayBuffer[Int]()

    //向数组缓冲的尾部追加一个元素

    //+=尾部追加元素

    ab += 1

    //追加多个元素

    ab += (2, 3, 4, 5)

    //追加一个数组++=

    ab ++= Array(6, 7)

    //追加一个数组缓冲

    ab ++= ArrayBuffer(8,9)

    //打印数组缓冲ab

 

    //在数组某个位置插入元素用insert,从某下标插入

    ab.insert(0, -1, 0)

    //删除数组某个位置的元素用remove  按照下标删除

    ab.remove(0)

    println(ab)

 

  }

}

1.1.2. 遍历数组

1.增强for循环

2.好用的until会生成脚标,0 until 10 包含0不包含10
spark笔记之数组、映射、元组、集合

package cn.itcast.scala

object ForArrayDemo {

  def main(args: Array[String]) {

    //初始化一个数组

    val arr = Array(1,2,3,4,5,6,7,8)

    //增强for循环

    for(i <- arr)

      println(i)

 

    //好用的until会生成一个Range

    //reverse是将前面生成的Range反转

    for(i <- (0 until arr.length).reverse)

      println(arr(i))

  }

}

1.1.3. 数组转换

yield关键字将原始的数组进行转换会产生一个新的数组,原始的数组不变
spark笔记之数组、映射、元组、集合

package cn.itcast.scala

 

object ArrayYieldDemo {

  def main(args: Array[String]) {

    //定义一个数组

    val arr = Array(1, 2, 3, 4, 5, 6, 7, 8, 9)

    //将偶数取出乘以10后再生成一个新的数组

    val res = for (e <- arr if e % 2 == 0) yield e * 10

    println(res.toBuffer)

 

    //更高级的写法,用着更爽

    //filter是过滤,接收一个返回值为boolean的函数

    //map相当于将数组中的每一个元素取出来,应用传进去的函数

    val r = arr.filter(_ % 2 == 0).map(_ * 10)

    println(r.toBuffer)

 

  }

}

1.1.4. 数组常用算法

在Scala中,数组上的某些方法对数组进行相应的操作非常方便!
spark笔记之数组、映射、元组、集合
1.2. 映射

在Scala中,把哈希表这种数据结构叫做映射。

1.2

### Python 中数组元组的区别 #### 定义方式 在 Python 中,元组使用圆括号 `()` 进行定义并访问其元素;而数组则通常指的是列表(list),使用方括号 `[]` 来表示[^1]。如果是指更专业的数值计算领域,则会涉及到 NumPy 库提供的 ndarray 类型。 #### 可变性 元组是一种不可变序列类型,一旦创建就不能修改其中的元素值或顺序[^2]。相比之下,无论是内置类型的 list 还是第三方库如 NumPy 提供的一维或多维 array 都是可以被更改内容的数据容器。 #### 方法支持 由于元组具有固定性和哈希能力的特点,在某些情况下可以作为字典键或其他集合成员存在。然而这同时也意味着它不提供任何用于改变内部状态的方法。另一方面,不论是标准库里的 list 对象还是 numpy.ndarray ,都拥有大量实用的操作接口来处理数据集,比如 append() 、extend() 或者 reshape()。 #### 性能考量 当只需要存储一组不会变化的对象时可以选择 tuple 。因为它的实现较为轻量级,并且对于只读操作来说速度更快一些。而对于那些需要频繁增删改查元素的应用场景而言,list 和 ndarray 显然是更好的选择,尽管它们占用更多内存资源但是提供了更高的灵活性和功能性[^3]. ```python # 创建一个简单的元组 sample_tuple = (1, "apple", True) # 尝试修改元组中的第一个元素将会引发 TypeError 错误 try: sample_tuple[0] = 2 except Exception as e: print(f"Cannot modify a tuple: {e}") # 创建一个普通的列表 mutable_list = ["orange", False] # 修改列表中的第二个元素是没有问题的 mutable_list[1] = True print(mutable_list) ``` #### 使用场景建议 - **元组**适用于保存一系列相互关联但不需要变动的信息组合,例如数据库记录、坐标点等。 - **数组/列表**更适合用来管理动态增长收缩的数据系列,特别是当涉及大量的数学运算或是科学计算任务时推荐采用专门优化过的 NumPy 数组形式[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值