JAVA Reactor merge 流丢失数据？Scheduler 竞争与背压策略问题剖析

最新推荐文章于 2025-12-19 20:15:38 发布

原创

最新推荐文章于 2025-12-19 20:15:38 发布 · 1.8k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#java #网络 #开发语言 #JAVA

JAVA Reactor Merge 流丢失数据？Scheduler 竞争与背压策略问题剖析

各位观众，大家好！今天我们来深入探讨一个在使用 Reactor 进行响应式编程时经常遇到的问题：使用 merge 操作符合并多个 Flux 流时，数据丢失的问题。这个问题看似简单，但其背后涉及到 Reactor 的 Scheduler 调度、线程竞争以及背压策略等多个关键概念。理解这些概念对于编写健壮、高效的响应式应用至关重要。

问题重现：一个简单的例子

首先，让我们通过一个简单的例子来重现这个问题。假设我们有两个 Flux 流，分别产生一些整数，我们希望使用 merge 操作符将它们合并成一个单一的 Flux 流，并打印出所有的数据。

import reactor.core.publisher.Flux;
import reactor.core.scheduler.Schedulers;

import java.time.Duration;
import java.util.ArrayList;
import java.util.List;
import java.util.Random;

public class MergeLossExample {

    public static void main(String[] args) throws InterruptedException {

        Flux<Integer> flux1 = Flux.range(1, 5).delayElements(Duration.ofMillis(100));
        Flux<Integer> flux2 = Flux.range(101, 5).delayElements(Duration.ofMillis(150));

        Flux.merge(flux1, flux2)
                .subscribe(data -> System.out.println("Received: " + data));

        Thread.sleep(2000); // 确保所有数据都处理完毕
    }
}

这段代码看似没有问题，但如果我们将 flux1 和 flux2 的数据量增加，或者减少 delayElements 的时间间隔，我们可能会发现最终打印出的数据不完整，即发生了数据丢失。

问题分析：Scheduler 调度与线程竞争

数据丢失的原因主要在于 merge 操作符在默认情况下，会并行地订阅并消费所有的输入 Flux 流。这意味着 flux1 和 flux2 可能会在不同的线程上运行，并且它们向下游的 subscribe 方法发送数据的速度可能超过下游的处理能力。

Reactor 的 Scheduler 负责管理线程的调度。默认情况下，delayElements 操作符会使用 Schedulers.parallel()，它会创建一个固定大小的线程池，用于执行延迟操作。当多个 Flux 流同时向 merge 发送数据时，这些数据可能会在不同的线程上被处理，并争夺共享的资源（例如，下游的 Subscriber）。

在高并发的情况下，这种线程竞争可能导致数据丢失。原因如下：

下游处理速度慢于上游生产速度： 如果下游的 Subscriber 处理数据的速度慢于上游 Flux 流生产数据的速度，那么数据会被缓存在 Reactor 的内部缓冲区中。
缓冲区溢出： 如果上游持续快速地生产数据，而下游持续缓慢地消费数据，那么缓冲区最终会溢出，导致数据丢失。
线程切换带来的开销： 频繁的线程切换也会带来额外的开销，降低整体的处理效率，增加数据丢失的风险。