概念
Stream 是 Java8 中处理集合的关键抽象概念,它可以指定你希望对集合进行的操作,可以执行非常复杂的查找、过滤和映射数据等操作。
Stream是数据渠道,用于操作数据源(集合、数组等)所生成的元素序列。“集合讲的是数据,流讲的是计算!”
① Stream 自己不会存储元素。
② Stream 不会改变源对象。相反,他们会返回一个持有结果的新Stream。
③ Stream 操作是延迟执行的。这意味着他们会等到需要结果的时候才执行。
使用
使用 Stream API 分为三个步骤:
- 创建数据源:从列表、集合、数组等数据源中获取一个 Stream 对象。
- 中间操作:对获取的 Stream 进行中间操作,例如筛选、映射、排序等。
- 终止操作:对中间操作后的 Stream 进行终端操作,例如转换成一个新的集合等。
创建数据源
1、通过集合
Java8 中的 Collection 接口被扩展,提供了两个获取流的方法:
default Stream<E> stream() 返回一个顺序流
default Stream<E> parallelStream() 返回一个并行流
2、通过数组
Java8 中的 Arrays 的静态方法 stream() 可以获取数组流:
3、通过Stream的of()
可以调用Stream类静态方法 of(), 通过显示值创建一个流。它可以接收任意数量的参数。
public static<T> Stream<T> of(T... values)
4、创建无限流
可以使用静态方法 Stream.iterate() 和 Stream.generate(), 创建无限流。
中间操作
多个中间操作可以连接起来形成一个流水线,除非流水线上触发终止操作,否则中间操作不会执行任何的处理!而在终止操作时一次性全部处理,称为“惰性求值”。
常用方法 | 描述 | |
筛选与切片 | filter(Predicate p) | 筛选,接收Lambda, 从流中排除某些元素。 |
distinct() | 筛选,通过流所生成元素的 hashCode() 和 equals() 去除重复元素。 | |
limit(long maxSize) | 截断流,使其元素不超过给定数量。 | |
skip(long n) | 跳过元素,返回一个扔掉了前 n个元素的流。若流中元素不足 n个,则返回一个空流。与 limit(n) 互补。 | |
映射 | map(Function f) | 接收一个函数作为参数,该函数会被应用到每个元素上,并将其映射成一个新的元素。 |
peek(Consumer<? super T>) | peek 操作会按照 Consumer 函数提供的逻辑去消费流中的每一个元素,同时有可能改变元素内部的一些属性。 与map区别:peek 操作一般用于不想改变流中元素本身的类型或者只想元素的内部状态时;而 map 则用于改变流中元素本身类型,即从元素中派生出另一种类型的操作。 | |
flatMap(Function f) | 接收一个函数作为参数,将流中的每个值都换成另一个流,然后把所有流连接成一个流。 当我们需要将具有层级结构的数据展平时,也就是将多层数据转换为单层数据操作时,我们可以使用 flatMap 方法。如果我们只是简单的对流中的数据计算或者转换时,可以使用 map 方法。 参考资料: | |
排序 | sorted() | 产生一个新流,其中按自然顺序排序。 |
sorted(Comparator com) | 产生一个新流,其中按比较器顺序排序。 |
终止操作
终端操作会从流的流水线生成结果。其结果可以是任何不是流的值,例如:List、Integer,甚至是 void 。流进行了终止操作后,不能再次使用。
常用方法 | 描述 | |
匹配与查找 | Boolean allMatch(Predicate p) | 检查是否匹配所有元素。 |
Boolean anyMatch(Predicate p) | 检查是否至少匹配一个元素。 | |
Boolean noneMatch(Predicate p) | 检查是否没有匹配所有元素。 | |
Optional findFirst() | 返回第一个元素。 | |
Optional findAny() | 返回当前流中的任意元素。 | |
Long count() | 返回流中元素总数。 | |
Optional max(Comparator c) | 返回流中最大值。 | |
Optional min(Comparator c) | 返回流中最小值。 | |
Void forEach(Consumer c) | 内部迭代 (使用 Collection 接口需要用户去做迭代,称为外部迭代;相反,Stream API 使用内部迭代——它帮你把迭代做了)。 | |
归约 | reduce(T iden, BinaryOperator b) | 可以将流中元素反复结合起来,得到一个值。返回 T |
reduce(BinaryOperator b) | 可以将流中元素反复结合起来,得到一个值。返回 Optional<T> | |
收集 | collect(Collector c) | 将流转换为其他形式。接收一个 Collector接口的实现,用于给Stream中元素做汇总的方法。 |
Collector(收集器)
参考资料:https://zhuanlan.zhihu.com/p/656502312
Collector接口中方法的实现决定了如何对流执行收集的操作(如收集到 List、Set、Map)。 Collectors(收集器工厂)提供了很多静态方法来实现Collector的常见汇聚,可以方便地创建常见收集器实例,具体如下表:
常用方法 | 描述 | |
聚合 | toList | 默认使用ArrayList |
toSet | 默认使用HashSet | |
toCollection | 返回的是Collection子类,接受一个Collection 的实现对象 | |
toMap | 默认使用HashMap和ConcurrentHashMap。如果Key有重复的,会抛出java.lang.IllegalStateException: Duplicate key异常,所以,为了保险起见,我们需要借助toMap另一个重载方法。 | |
toConcurrentMap | ||
分组 | groupingBy | groupingBy与toMap都是将聚合元素进行分组,区别在于toMap结果是 1:1 的 k-v 结构,groupingBy的结果是 1:n的 k-v 结构。 |
groupingByConcurrent | ||
partitioningBy | partitioningBy与groupingBy的区别在于,partitioningBy借助Predicate断言,可以将集合元素分为true和false两部分。 | |
统计 | counting | 统计聚合结果的元素数量,作用与people.stream().count()相同。 |
averagingDouble | 都是计算聚合元素的平均值,区别在于入参类型不同,但这三个方法的返回值都是Double类型。 people.stream().collect(Collectors.averagingDouble(Person::getWeight)); | |
averagingInt | ||
averagingIong | ||
maxBy | 返回类型是Optional | |
minBy | ||
链接 | joining | 拼接成一个字符串返回,作用与java.lang.String#join类似。 people.stream().map(Person::getName).collect(Collectors.joining(",")); |
操作链 | collectingAndThen | 它是先对集合进行一次聚合操作,然后通过Function定义的函数,对聚合后的结果再次处理。 |
并行流
并行流就是 Stream 的一个分支,它利用多核处理器的优势,可以实现真正的多线程环境下的并行执行。创建并行流有两种方式:
- Stream 对象上调用 parallel() 方法,将其转换为并行流。
- 集合对象上调用parallelStream()方法,获取并行流。
虽然并行流在处理大数据集时具有明显的优势,但是在使用它时也需要注意一些问题。
- 线程安全:如果你的函数(例如在 map 或 reduce 中使用的函数)不是线程安全的,那么并行流可能会导致问题。你应该确保你的函数没有任何副作用,并且能够安全地在多个线程之间共享。
- 顺序:并行流处理元素的顺序不是固定的,因为元素的处理是在多个线程中并行进行的。如果你关心处理元素的顺序,那么可能不应该使用并行流。
- 资源限制:基于服务器内核的限制,如果你是八核,每次线程只能起八个,不能自定义线程池。适用于对list密集计算操作充分利用CPU资源,如果需要调用远端服务不建议使用。
并行流提供了一种简单的方法来利用多核处理器,而无需我们深入到线程管理和同步问题中。然而,这并不意味着我们可以忽视这些问题。对于那些无法被并行流有效处理的任务,我们可能需要考虑使用其他的并行处理工具,如 ThreadPoolTaskExecutor或 CompletableFuture。