java8读书笔记：探究java8流收集数据原理

最新推荐文章于 2023-04-17 12:28:56 发布

原创最新推荐文章于 2023-04-17 12:28:56 发布 · 1.5k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#java8 #java流 #java8实战 #collect

java8 专栏收录该内容

6 篇文章

订阅专栏

java8专栏目录：

本文揭示如何学习一门新技术，从示例入手，重点阐述Stream#collect方法的实现原理，为更好的使用java8中流来收集数据。

本节目录

我们在前面的文章中反复使用的场景：获取菜单中所有菜品的名称，返回一个集合，其代码如下：

public static void test_toList(List<Dish> menu) {
    List<String> names = menu.stream().map(Dish::getName)
                        .collect(Collectors.toList()); // @1

    for(String s : names) {
        System.out.println(s);
    }
}

通过Stream.collect这个终端操作进行数据收集，至于如何收集，则由该方法的参数来决定(Collector)，即行为参数化。

代码@1：collect(Collectors.toList()) 的意思就是返回List，这里涉及到两个关键，一个是Stream#collect方法，另外一个就是其参数Collectors.toList()。

接下来我们将以上述两个突破点来揭开如何使用java8的流来收集数据。

1、Stream#collect

ReferencePipeline#collect

public final <R, A> R collect(Collector<? super P_OUT, A, R> collector) {   // @1
    A container;
    if (isParallel()
            && (collector.characteristics().contains(Collector.Characteristics.CONCURRENT))
            && (!isOrdered() || collector.characteristics().contains(Collector.Characteristics.UNORDERED))) {   // @2
        container = collector.supplier().get();                                                                 // @3
        BiConsumer<A, ? super P_OUT> accumulator = collector.accumulator();
        forEach(u -> accumulator.accept(container, u));
    }
    else {                                                                                                     // @4
        container = evaluate(ReduceOps.makeRef(collector));                                                                                              
    }
    return collector.characteristics().contains(Collector.Characteristics.IDENTITY_FINISH)                    // @5
           ? (R) container
           : collector.finisher().apply(container);
}

代码@1：函数声明，该方法返回的结果类型为R，传入的行为参数接口为Collector。
代码@2：判断是否符合并行化累积与规约的条件。

是否是并行流，例如上例中创建流的代码为menu.stream()，该方法的流是非并行化流，如果要支持并行化执行，需要满足的第一个条件就是需要使用menu.parallelStream()方法返回的流。
Collector(收集器，行为化参数)中收集器行为集合中是否包含Characteristics.CONCURRENT(并行执行)，如果不包含该行为，则不支持并行执行。
原始流是否有顺序或者收集器的行为集合中明确包含Characteristics.UNORDERED(不要求顺序性)。
上述三个条件必须同时满足，才能并行执行，否则串行执行。

代码@3：并行执行收集动作。

代码@4：串行执行收集动作。

代码@5：如果收集器收集行为集合中包含Characteristics.IDENTITY_FINISH，则直接返回原始值，否则使用Collector.finishier()方式对计算的值进行函数式计算。

通过上面的代码，我们应该对Characteristics枚举类型中的3个值不难得出如下类型：

CONCURRENT
收集器行为，表示收集其中的累积函数是否支持并行执行。
Characteristics.UNORDERED
收集器行为，表示整个收集期间，没有顺序要求。
Characteristics.IDENTITY_FINISH
收集器行为，表示可以忽略Collector.finsher()定义的最终转换函数，直接返回累积之后的结果即可。

疑问？代码@3,这段代码不是很好理解，该怎么继续往下深入呢？

针对上面看不太懂的代码，我的处理办法是先转移思路，看一下Collector接口以及示例中Collectos.toList()返回的收集器是什么(重点关注返回的Collector中具体属性)。

2、Collector接口

在这里插入图片描述
收集器中的泛型参数说明如下：

T ：累积器中一个操作数类型
A：累积器中的初始值类型
R：返回值的类型，例如List< R >。

其属性一览如下：

Supplier< A > supplier()
该函数式接口，大家应该都非常熟悉了，其函数声明如下：() -> T，通常用于构建对象，那这里是构建什么对象呢？这是下一个待解疑问。
BiConsumer<A, T> accumulator()
从名字命名来看，应该是返回累积器，（T,U）-> void。通常用于输入两个参数，对其进行处理，但返回void类型。
BinaryOperator< A > combiner()
从名字命令来看，应该是组合器（请参考流计算函数reduce)。
Function<A, R> finisher()
最终函数，如果收集器行为包含IDENTITY_FINISH，则无需使用该函数对累积器产生的结果进行处理，否则使用该函数对累积器结果进行最后的处理。
Set< Characteristics > characteristics()
累积器行为，在上文已做详细介绍。

其supplier函数到底是干什么的呢？对上面的方法都是基于名字来推测的（当然JDK代码非常优雅，根据名字去猜测，准确度还是很高的），但如何确认呢？这个时候我们还是结合Collectos.toList()方法返回的Collector来做进一步推断。

3、Collectors.toList()

代码如下：

public static <T> Collector<T, ?, List<T>> toList() {
    return new CollectorImpl<>((Supplier<List<T>>) ArrayList::new, List::add,
                               (left, right) -> { left.addAll(right); return left; },
                               CH_ID);
}

Collector的第一个参数Supplier，在这里为ArrayList::new，即调用supper.get()方法将返回一个List。
Collector的第二个参数accumulator:累积器，这里是List:add方法。
Collector的第三个参数combiner:组合器，这里就是(left, right) -> {left.addAll(right);return left;}
Collector的第四个函数characteristics：收集器的行为，这里为CH_IL，其选项为：IDENTITY_FINISH。

有了上面这些知识，我们再来看如下这段代码：
在这里插入图片描述
1、A container：累积器的初始值，如果使用Collectors.toList()，则这里会返回List的对象。
2、获取collector中定义的累积器。
3、遍历流，执行累积器动作，其中形式参数u，代表流中的一个个元素。

至于forEach方法，底层流的具体实现，本文就不再往深探究。

4、总结

java8 使用流来收集数据的基本用法：

使用流stream的collect对象进行数据收集，其参数为Collector函数是编程接口，具体的收集逻辑由该接口来指定。
流的收集其具备基本的属性即作用：
- Supplier< A > supplier()
  通过该函数式编程接口，返回累积器的初始值。
- BiConsumer<A, T> accumulator
  累积器函数。
- BinaryOperator< A > combiner
  组合器，可以参考函数式编程接口的reduce方法。
- Set< Characteristics > characteristics
  收集器行为。
java8中的Collectors提供了很多默认的收集器，例如Collectors.toList()方法，下一节我们会根据该类，详细介绍在java8中默认提供的收集器，指导我们如何使用java8中的流来收集数据。

下一节，将以Collectos类为入口，详细介绍java8中默认提供的收集器，已经如何使用。

欢迎加笔者微信号(dingwpmz)，加群探讨，笔者优质专栏目录：
1、源码分析RocketMQ专栏(40篇+)
2、源码分析Sentinel专栏(12篇+)
3、源码分析Dubbo专栏(28篇+)
4、源码分析Mybatis专栏
5、源码分析Netty专栏(18篇+)
6、源码分析JUC专栏
7、源码分析Elasticjob专栏
8、Elasticsearch专栏（20篇+）
9、源码分析MyCat专栏