大数据处理学习笔记1.6

本文介绍了Scala中的数组,包括定长和变长数组的定义、遍历、常用方法以及课堂练习。接着讨论了列表,包括不可变和可变列表的创建、添加元素、合并操作。此外,还涉及了映射的使用,以及元组的定义、访问和转换。文章通过实例展示了各种操作,如数组求和、列表遍历、映射查询等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、数组 (Array)

  • Scala中的数组分为定长数组和变长数组,定长数组初始化后不可对数组长度进行修改,而变长数组则

(一)定长数组

1、数组定义

(1)定义数组时初始化数据

  • 自动推断数组类型

  • 手动指定数据类型

2)定义时指定数组长度,后赋值

  • 先定义,后赋值,(数据的动态初始化)

 避免数组下标越界错误

2、数组遍历

  • 定义数组arr(自动推断类型,静态初始化)

 可以使用for循环对数组进行遍历,输出数组所有的元素

(1)传统for循环方式

  • 通过数组下标来遍历数组元素

 通过arr.length - 1 to 0 by -1实现反向遍历

(2)增强for循环方式

  • 正向遍历数组元素
  • 反向遍历数组元素

(3)利用foreach算子遍历数组

课堂练习:数组求和

  • 采用遍历算子

 采用增强for循环

 课堂练习:采用传统for循环来求和

3、常用方法

  • Scala对数组提供了很多常用的方法,使用起来非常方便
  • 定义数组arr(通过数组类的构造方法来初始化数组,静态初始化)

(1)求数组中数值总和

  • 调用sum方法

(2)求数组中的最大值

  • 调用max方法

(3)求数组中的最小值

  • 调用min方法,也可以自己编写代码求最小值

(4)对数组实现升序

  • 调用sorted方法升序,再再调用reverse方法反序,就可以实现数组降序

课堂练习:数组查询

  • 定义一个整型数组,输入一个整数,判断该整数是否在数组里,如果在数组里,给出其位置,否则提示用户该整数不在数组里。

  • net.zhj.day03包里创建jj01对象

利用数组的contains方法判断查询目标是否在数组里,如果在数组里,就遍历输出

package net.zhj.day03

import scala.io.StdIn

object jj01 {
  def main(args: Array[String]): Unit = {
    val arr = Array(4,42,12,43,5,6,31)
    for (x <- arr) print(x.toString + " ")
    println()
    print("x = ")
    val x = StdIn.readInt()
    if (arr.contains(x)){
      for (i <- 0 until arr.length) {
         if (x == arr(i))
           println("arr(" + i + ") = " + x)
      }
    }
    else {
      println(x.toString + "不在数组里")
    }
  }
}

运行结果

  • 直接遍历输出等于查询目标的数组元素,统计统计满足条件的个数,如果个数等于零,说明查询目标不在数组里

  • net.zhj.day03包里创建jj01_对象

(二)变长数组

1、数组定义

  • 变长数组使用类scala.collection.mutable.ArrayBuffer进行定义
  • 定义一个变长Int类型数组arr,利用+=运算符、append方法添加一个数组元素(注意是追加元素),还可以利用appendAll方法添加一个数组(多个元素)

2、遍历数组

 遍历数组arr,跟遍历定长数组没有不同

 3、移除元素

利用remove方法可以按下标删除数组元素,当然可能出现下标越界异常

 利用-=运算符按值直接删除数组元素

 使用remove()方法可以在数组的固定位置移除指定数量的元素

3、插入元素

  • 使用insert()方法可以在数组指定位置插入一个元素,做法跟Python王权一样,第一个参数是下标,第二个参数是要插入的数据

  • 在数组arr1的下标为2的位置插入一个元素666

 如果插入的位置参数等于数组长度,那么就相当于在末尾追加新元素

 4、数组合并

  • Scala支持使用++=符号将两个变长数组进行合并,其实还可以用appendAll方法来拼接两个数组
  • 定义三个变长数组arr1arr2arr3arr1采用++=合并arr2得到result,其实result与合并后的arr1是相等的,然后arr1再利用appendAll方法合并arr3,结果是三个数组的9个元素全部合并进数组arr1

课堂练习:产生随机整数构成的变长数组

  • 产生一个变长数组,包含10个[a, b] (a ∈ N \in N ∈N, b ∈ N \in N ∈N, a < \lt < b)之间的随机整数

二、列表 (List)

  • Scala中的列表分为可变列表和不可变列表,默认使用的列表为不可变列表。不可变列表也可以增加元素,但实际上生成了一个新列表,原列表不变。列表元素类型可以相同,也可以不一致。

(一)不可变列表

1、创建不可变列表

  • 创建一个Int类型的列表- list1

  • 创建一个混合类型的列表 - list2,元素类型被系统统一为Any

2、给列表添加元素

(1)在列表头添加元素

  • 利用.+:在列表头添加新元素
  • 在列表list1的头部追加一个元素0,生成一个新列表 list3,列表list1没有变的

  •  利用 :: 在表头添加新元素

(2)在列表尾添加元素

  • 利用.:+在列表尾添加新元素
  • 在列表list1的尾部追加一个元素100,生成一个新列表 list4,列表list1没有变的

列表后的::运算符要连接一个列表

3、列表合并操作

  • List也支持合并操作

  • 创建两个列表list1list2

 list1list2合并生成列表list3list1元素在前,list2元素在后

 用方法调用,list1list2合并生成列表list4

 其实,利用方法调用可以完成两种合并

结论:冒号:靠近哪个列表,那个列表就位于合并列表之前

 思考题:数组可以用append来追加元素,定长列表可以吗?

4、二维列表

  • 列表的列表称为二维列表,其实就是嵌套的列表
  • 定义二维列表students, 让scala自动推断stuents常量的类型

 遍历二维列表students

for (student <- students) {
    for (field <- student)
        print(field.toString + "\t")
    println()
}
  • 课堂练习:换种方式遍历二维列表
  • 利用scala特殊双重循环和流间变量

  • 最好将j == 2改成j == students(i).length - 1,这样更通用
  • 利用遍历算子

(二)可变列表

1、创建可变列表

  • 可变List需要使用scala.collection.mutable.ListBuffer
  • 创建列表时初始化数据(静态初始化)

 先创建空列表,然后利用+=运算符添加数据(动态初始化),再使用append方法添加

2、列表合并

  • 将列表list1与列表list2合并,list1在前,list2在后

3、列表排序

  • 列表升序和降序(降序 = 升序 + 反序)

4、列表总和、平均值、最值

  • 计算总和、最值可以直接调用列表方法完成,平均值得自己计算

5、添加新元素

  • 添加新元素有两种方法:在末尾添加新元素用append方法;在中间插入新元素用insert方法

  • 调用可变列表的insert(pos, value),在pos位置插入新元素value

6、移除列表元素

  • 调用可变列表的remove(pos, count)方法,从pos位置开始移除count个列表元素
  • 任务:移除list列表中的第6、7、8个元素

课堂练习

创建整型列表,包含12、5、8、12、9、7、45、16、78、10、3,分别输出奇数列表和偶数列表。(方法一:采用循环嵌套双分支结构;方法二:采用过滤算子来处理)

方法一:

方法二:

 

(一)不可变映射

1、创建不可变映射

  • 创建不可变映射mp,用键->值的形式

 创建不可变映射mp,用(键, 值)的形式

 注意:Map是特质(Scala里的trait,相当于Java里的Interface),不能实例化

2、遍历不可变映射

  • 利用for循环来实现遍历

 调用mp.keysforeach实现遍历

(二)可变映射

  • 创建可变Map需要引入类scala.collection.mutable.Map,创建方式与上述不可变Map相同。

1、创建可变映射

  • 创建可变映射mp

2、修改可变映射

将键02的值改为man(键02存在,执行修改操作)

将键05的值改为belle(键05存在,执行添加操作)

3、查询可变映射

  • 查询键02的值,如果没有查到,则返回键02不存在
  • 查询键08的值,如果没有查到,则返回键08不存在

4、添加元素

  • 查看可变映射当前值

5、删除元素

  • 删除存在的键 - 07 对应的元素

四、元组 (Tuple)

  • 元组是一个可以存放不同类型对象的集合,元组中的元素不可以修改。
  • 长度最高为Tuple22

(一)定义元组

1、直接赋值定义元组

  • 定义一个元组student

2、创建指定长度的元组

  • 定义指定长度的元组,其中Tuple3是一个元组类,代表元组长度为3

 

(二)访问元组

  • 使用方法_1、_2、_3访问元组的元素,与数组和字符串的位置不同,元组的元素下标从1开始。
  • 访问元组的3个元素

 访问元组的第6个元素(不存在的元素),报错

 

(三)迭代元组

  • 直接用for循环遍历元素是不行的

 使用元组的productIterator()方法产生全部元素构成的迭代器,然后遍历迭代器

 

 使用for循环遍历元组生成迭代器

 

(四)元组转为字符串

  • 使用Tuple.toString()方法可将元组全部元素组合成一个字符串

 注意:元组与字符串进行连接运算,元组会自动转换成字符串

课堂练习:对一个字符串进行词频统计

  • 创建文件 - /home/test.txt

方法一

  • 读取磁盘文件,然后输出

  • 将迭代器的全部行转成列表,然后进行拼接,用空格作为分隔符

 将字符串按空格进行拆分,得到单词数组

对单词数组进行映射操作,得到一个元组(单词, 1)的数组

按单词分组,其实是按元组的第一个元素来分组

 将每个单词的出现次数合并成数组

 将每个单词的出现次数数组进行归并运算

 输出词频统计结果

 

方法二

  • 采用了将groupBymapValues方法合并的groupMap方法

 

方法三

  • 采用groupMapReduce方法更简单

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值