Apache Spark Java 示例：流处理（Structured Streaming）

最新推荐文章于 2025-11-24 16:48:46 发布

原创最新推荐文章于 2025-11-24 16:48:46 发布 · 1.1k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#apache #spark #java

大数据专栏收录该内容

127 篇文章

订阅专栏

Apache Spark Java 示例：流处理（Structured Streaming）

本文将详细介绍如何使用 Apache Spark 的 Structured Streaming API 构建实时流处理应用。我们将实现一个电商实时分析系统，处理用户行为事件流，并进行多种实时分析。

应用场景概述

我们将处理来自 Kafka 的实时事件流，包含以下功能：

实时用户行为分析
异常交易检测
实时销售仪表板
用户会话分析
实时数据写入数据湖

完整实现代码

import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.streaming.StreamingQuery;
import org.apache.spark.sql.streaming.StreamingQueryException;
import org.apache.spark.sql.streaming.Trigger;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructType;
import org.apache.spark.sql.functions.*;

import java.util.concurrent.TimeoutException;

public class EcommerceStreamProcessing {

    public static void main(String[] args) throws StreamingQueryException, TimeoutException {
        // 1. 创建Spark Session
        SparkSession spark = SparkSession.builder()
                .appName("E-commerce Real-time Analytics")
                .master("local[*]") // 生产环境使用集群模式
                .config("spark.sql.shuffle.partitions", "8")
                .config("spark.sql.streaming.checkpointLocation", "/tmp/checkpoint") // 检查点目录
                .getOrCreate();
        
        // 2. 定义输入数据源Schema
        StructType schema = new StructType()
                .add("event_id", DataTypes.StringType)
                .add("user_id", DataTypes.StringType)
                .add("event_type", DataTypes.StringType)
                .add("event_time", DataTypes.TimestampType)
                .add("product_id", DataTypes.StringType)
                .add("product_category", DataTypes.StringType)
                .add("price", DataTypes.DoubleType)
                .add("user_agent", DataTypes.StringType)
                .add("ip_address", DataTypes.StringType)
                .add("device_type", DataTypes.StringType)
                .add("session_id", DataTypes.StringType);
        
        // 3. 从Kafka读取数据流
        Dataset<Row> rawStream = spark
                .readStream()
                .format("kafka")
                .option("kafka.bootstrap.servers", "kafka-broker:9092")
                .option("subscribe", "user-events")
                .option("startingOffsets", "latest")
                .load()
                .selectExpr("CAST(value AS STRING) as json_value")
                .select(from_json(col("json_value"), schema).alias("data"))
                .select("data.*");
        
        System.out.println("输入数据流Schema:");
        rawStream.printSchema();
        
        // 4. 实时处理逻辑
        // 4.1 实时用户行为分析
        StreamingQuery userBehaviorQuery = userBehaviorAnalysis(rawStream);
        
        // 4.2 异常交易检测
        StreamingQuery anomalyDetectionQuery = anomalyDetection(rawStream);
        
        // 4.3 实时销售仪表板
        StreamingQuery salesDashboardQuery = salesDashboard(rawStream);
        
        // 4.4 用户会话分析
        StreamingQuery sessionAnalysisQuery = userSessionAnalysis(rawStream);
        
        // 4.5 实时数据写入Delta Lake
        StreamingQuery deltaLakeQuery = writeToDeltaLake(rawStream);
        
        // 5. 等待所有流处理完成
        spark.streams().awaitAnyTermination();
    }
    
    /**
     * 实时用户行为分析
     * - 统计各事件类型数量
     * - 实时用户活跃度
     * - 热门产品类别
     */
    private static StreamingQuery userBehaviorAnalysis(Dataset<Row> stream) {
        Dataset<Row> behaviorStats = stream
                .withWatermark("event_time", "5 minutes")
                .groupBy(
                    window(col("event_time"), "5 minutes"),
                    col("event_type")
                )
                .agg(
                    count("*").alias("event_count"),
                    approx_count_distinct("user_id").alias("active_users")
                )
                .select(
                    col("window.start").alias("window_start"),
                    col("window.end").alias("window_end"),
                    col("event_type"),
                    col("event_count"),
                    col("active_users")
                );
        
        // 输出到控制台
        StreamingQuery query = behaviorStats
                .writeStream()
                .outputMode("update")
                .format("console")
                .option("truncate", false)
                .trigger(Trigger.ProcessingTime("1 minute"))
                .start();
        
        System.out.println("用户行为分析流已启动...");
        return query;
    }
    
    /**
     * 异常交易检测
     * - 检测异常高价交易
     * - 检测高频交易
     * - 检测异常地理位置
     */
    private static StreamingQuery anomalyDetection(Dataset<Row> stream) {
        // 检测高价交易（超过平均价格的5倍）
        Dataset<Row> highValueTransactions = stream
                .filter(col("event_type").equalTo("purchase"))
                .withWatermark("event_time", "10 minutes")
                .groupBy(
                    window(col("event_time"), "10 minutes")
                )
                .agg(avg("price").alias("avg_price"))
                .join(stream, "window")
                .filter(col("price").gt(col("avg_price").multiply(5)))
                .select(
                    col("event_id"),
                    col("user_id"),
                    col("price"),
                    col("avg_price"),
                    col("event_time")
                );
        
        // 检测高频交易（1分钟内超过5次交易）
        Dataset<Row> highFrequencyTransactions = stream
                .filter(col("event_type").equalTo("purchase"))
                .withWatermark("event_time", "1 minute")
                .groupBy(
                    window(col("event_time"), "1 minute"),
                    col("user_id")
                )
                .agg(count("*").alias("purchase_count"))
                .filter(col("purchase_count").gt(5))
                .select(
                    col("window.start").alias("window_start"),
                    col("user_id"),
                    col("purchase_count")
                );
        
        // 合并异常检测结果
        Dataset<Row> anomalies = highValueTransactions
                .withColumn("anomaly_type", lit("high_value"))
                .union(
                    highFrequencyTransactions
                        .withColumn("anomaly_type", lit("high_frequency"))
                        .withColumn("event_id", lit(null))
                        .withColumn("price", lit(null))
                        .withColumn("avg_price", lit(null))
                        .withColumn("event_time", lit(null))
                );
        
        // 输出到Kafka告警主题
        StreamingQuery query = anomalies
                .selectExpr(
                    "CAST(user_id AS STRING) AS key",
                    "to_json(struct(*)) AS value"
                )
                .writeStream()
                .format("kafka")
                .option("kafka.bootstrap.servers", "kafka-broker:9092")
                .option("topic", "anomaly-alerts")
                .option("checkpointLocation", "/tmp/checkpoint/anomaly_detection")
                .trigger(Trigger.ProcessingTime("30 seconds"))
                .start();
        
        System.out.println("异常检测流已启动...");
        return query;
    }
    
    /**
     * 实时销售仪表板
     * - 实时销售总额
     * - 热门产品类别
     * - 地理分布
     */
    private static StreamingQuery salesDashboard(Dataset<Row> stream) {
        // 实时销售统计
        Dataset<Row> salesStats = stream
                .filter(col("event_type").equalTo("purchase"))
                .withWatermark("event_time", "10 minutes")
                .groupBy(
                    window(col("event_time"), "5 minutes"),
                    col("product_category")
                )
                .agg(
                    sum("price").alias("total_sales"),
                    count("*").alias("transaction_count"),
                    approx_count_distinct("user_id").alias("buyers")
                )
                .select(
                    col("window.start").alias("time_window"),
                    col("product_category"),
                    col("total_sales"),
                    col("transaction_count"),
                    col("buyers")
                );
        
        // 输出到Elasticsearch
        StreamingQuery query = salesStats
                .writeStream()
                .outputMode("update")
                .format("org.elasticsearch.spark.sql")
                .option("checkpointLocation", "/tmp/checkpoint/sales_dashboard")
                .option("es.nodes", "elasticsearch:9200")
                .option("es.resource", "sales-stats/_doc")
                .option("es.mapping.id", "time_window")
                .trigger(Trigger.ProcessingTime("1 minute"))
                .start();
        
        System.out.println("销售仪表板流已启动...");
        return query;
    }
    
    /**
     * 用户会话分析
     * - 会话持续时间
     * - 会话内事件序列
     * - 转化率分析
     */
    private static StreamingQuery userSessionAnalysis(Dataset<Row> stream) {
        // 会话分析
        Dataset<Row> sessionStats = stream
                .withWatermark("event_time", "30 minutes")
                .groupBy(
                    col("session_id"),
                    col("user_id")
                )
                .agg(
                    count("*").alias("event_count"),
                    min("event_time").alias("session_start"),
                    max("event_time").alias("session_end"),
                    collect_list("event_type").alias("event_sequence")
                )
                .withColumn("session_duration", 
                    expr("unix_timestamp(session_end) - unix_timestamp(session_start)")
                )
                .withColumn("has_purchase", 
                    array_contains(col("event_sequence"), "purchase")
                );
        
        // 输出到Delta Lake
        StreamingQuery query = sessionStats
                .writeStream()
                .outputMode("update")
                .format("delta")
                .option("checkpointLocation", "/tmp/checkpoint/session_analysis")
                .option("path", "/data/sessions")
                .trigger(Trigger.ProcessingTime("5 minutes"))
                .start();
        
        System.out.println("用户会话分析流已启动...");
        return query;
    }
    
    /**
     * 将原始数据写入Delta Lake
     */
    private static StreamingQuery writeToDeltaLake(Dataset<Row> stream) {
        // 写入Delta Lake
        StreamingQuery query = stream
                .writeStream()
                .format("delta")
                .option("checkpointLocation", "/tmp/checkpoint/delta_lake")
                .option("path", "/data/raw-events")
                .trigger(Trigger.ProcessingTime("1 minute"))
                .start();
        
        System.out.println("Delta Lake写入流已启动...");
        return query;
    }
    
    /**
     * 解析IP地址为地理位置（UDF示例）
     */
    private static void registerIpLookupUDF(SparkSession spark) {
        spark.udf().register("ip_to_location", (String ip) -> {
            // 实际应用中应调用IP地理位置服务
            if (ip.startsWith("192.168")) return "Internal";
            if (ip.startsWith("10.")) return "North";
            if (ip.startsWith("172.")) return "South";
            return "Unknown";
        }, DataTypes.StringType);
    }
    
    /**
     * 解析User Agent（UDF示例）
     */
    private static void parseUserAgentUDF(SparkSession spark) {
        spark.udf().register("parse_device", (String ua) -> {
            if (ua.contains("Android") || ua.contains("iPhone")) return "Mobile";
            if (ua.contains("Tablet") || ua.contains("iPad")) return "Tablet";
            return "Desktop";
        }, DataTypes.StringType);
    }
}

Structured Streaming 核心概念

1. 流处理模型

输入源：Kafka、文件系统、Socket等
持续查询：在无界数据上执行增量查询
结果表：随时间更新的虚拟表
输出接收器：控制台、Kafka、数据库等

2. 处理模式

输出模式	描述	适用场景
Append	只添加新行	简单聚合、过滤
Update	更新修改的行	聚合操作、状态更新
Complete	输出完整结果集	全局聚合、状态快照

3. 时间概念

时间类型	描述	用途
事件时间	数据产生的时间	处理延迟数据
处理时间	Spark处理数据的时间	简单实时处理
摄入时间	数据进入Spark的时间	较少使用

4. 水印机制

.withWatermark("event_time", "10 minutes")

处理延迟数据的机制
定义事件时间的最大延迟
清除旧状态以控制内存使用

流处理关键技术详解

1. 窗口操作

.groupBy(
    window(col("event_time"), "5 minutes", "1 minute"),
    col("product_category")
)

窗口大小：5分钟
滑动间隔：1分钟
窗口类型：
- 滚动窗口：固定大小，不重叠
- 滑动窗口：固定大小，可重叠
- 会话窗口：基于事件间隔的动态窗口

2. 状态管理

// 使用mapGroupsWithState管理自定义状态
stream
    .groupByKey((MapFunction<Row, String>) row -> row.getString(row.fieldIndex("user_id")), Encoders.STRING())
    .mapGroupsWithState(
        new UserSessionStateFunction(),
        Encoders.bean(UserSessionState.class),
        Encoders.bean(UserSessionResult.class),
        GroupStateTimeout.EventTimeTimeout()
    );

状态函数：自定义状态处理逻辑
状态超时：自动清理不活跃状态
容错保证：通过检查点恢复状态

3. 流式Join

A. 流-流Join

Dataset<Row> purchases = stream.filter(col("event_type").equalTo("purchase"));
Dataset<Row> clicks = stream.filter(col("event_type").equalTo("click"));

Dataset<Row> conversionRate = purchases
    .withWatermark("event_time", "10 minutes")
    .join(
        clicks.withWatermark("event_time", "10 minutes"),
        expr("""
            user_id = user_id AND
            product_id = product_id AND
            click_time <= purchase_time AND
            purchase_time <= click_time + interval 1 hour
            """),
        "leftOuter"
    );

B. 流-静态数据Join

Dataset<Row> productCatalog = spark.read().json("/data/product_catalog.json");

Dataset<Row> enrichedStream = stream
    .join(
        productCatalog,
        stream.col("product_id").equalTo(productCatalog.col("id")),
        "left_outer"
    );

4. 容错与精确一次语义

.option("checkpointLocation", "/tmp/checkpoint")

检查点机制：
- 记录源偏移量
- 保存查询进度
- 持久化中间状态
容错保证：
- 至少一次：默认保证
- 精确一次：需要支持幂等写入的输出接收器

性能优化策略

1. 并行度优化

spark.conf.set("spark.sql.shuffle.partitions", "200");

根据集群规模调整shuffle分区数
避免过多小任务的开销
避免过少分区导致的负载不均

2. 状态存储优化

spark.conf.set("spark.sql.streaming.stateStore.providerClass", 
    "org.apache.spark.sql.execution.streaming.state.RocksDBStateStoreProvider");

使用RocksDB状态存储（默认是内存）
减少内存使用
支持更大状态规模

3. 水印与状态清理

.withWatermark("event_time", "1 hour")

设置合理的水印延迟
平衡延迟数据处理和状态清理
监控状态大小：streamingQuery.lastProgress().stateOperators

4. 背压处理

spark.conf.set("spark.sql.streaming.maxRatePerPartition", "1000");

限制每个分区的处理速率
避免资源不足导致失败
动态调整：spark.streaming.backpressure.enabled=true

生产环境部署

1. 集群配置示例

spark-submit \
  --class EcommerceStreamProcessing \
  --master yarn \
  --deploy-mode cluster \
  --num-executors 10 \
  --executor-cores 4 \
  --executor-memory 8G \
  --conf spark.sql.streaming.stateStore.providerClass=org.apache.spark.sql.execution.streaming.state.RocksDBStateStoreProvider \
  --conf spark.sql.shuffle.partitions=200 \
  --conf spark.executor.extraJavaOptions="-XX:+UseG1GC -XX:MaxGCPauseMillis=200" \
  your-application.jar

2. 监控与告警

关键监控指标：

处理延迟：latency
输入速率：inputRate
处理速率：processingRate
状态大小：stateOperators
批处理时间：batchDuration

集成监控系统：

// 注册自定义监控指标
StreamingQuery query = ...;
query.addListener(new StreamingQueryListener() {
    @Override
    public void onQueryProgress(QueryProgressEvent event) {
        // 发送指标到Prometheus/Graphite
    }
});

3. 高可用配置

spark.conf.set("spark.sql.streaming.stopActiveRunOnRestart", "true");
spark.conf.set("spark.yarn.maxAppAttempts", "1");

使用集群管理器（YARN/K8S）重启失败任务
配置检查点位置为高可靠存储（HDFS/S3）
避免多个查询实例同时运行

扩展应用场景

1. 实时机器学习

// 加载预训练模型
PipelineModel model = PipelineModel.load("/models/fraud-detection");

// 实时预测
Dataset<Row> predictions = stream
    .transform(new MapFunction<Row, Row>() {
        @Override
        public Row call(Row row) {
            // 特征工程
            return featureEngineer(row);
        }
    })
    .transform(model::transform);

2. 复杂事件处理

// 使用Spark SQL进行模式匹配
spark.sql("""
    SELECT *
    FROM events
    MATCH_RECOGNIZE (
        PARTITION BY user_id
        ORDER BY event_time
        MEASURES
            A.user_id AS start_user,
            LAST(B.event_time) AS end_time
        AFTER MATCH SKIP TO NEXT ROW
        PATTERN (A B+ C)
        DEFINE
            A AS A.event_type = 'login',
            B AS B.event_type = 'view',
            C AS C.event_type = 'purchase'
    )
""");

3. 实时数据仓库

// 使用Delta Lake构建实时数仓
stream.writeStream()
    .format("delta")
    .option("checkpointLocation", "/checkpoints/real_time_dw")
    .option("path", "/data/real_time_dw")
    .trigger(Trigger.ProcessingTime("5 minutes"))
    .start();

4. 物联网数据处理

// 处理设备传感器数据
Dataset<Row> sensorData = spark
    .readStream()
    .format("kafka")
    .option("subscribe", "sensor-data")
    .load();

// 异常检测
sensorData
    .withWatermark("timestamp", "1 minute")
    .groupBy(
        window(col("timestamp"), "5 minutes"),
        col("device_id")
    )
    .agg(
        avg("value").alias("avg_value"),
        stddev("value").alias("stddev")
    )
    .filter(col("stddev").gt(2.0)) // 超过2个标准差
    .writeStream()
    .format("kafka")
    .option("topic", "sensor-alerts")
    .start();

故障排除与最佳实践

常见问题解决方案

问题	解决方案
状态过大	增加水印延迟，使用RocksDB状态存储
处理延迟高	增加集群资源，优化查询，限制输入速率
数据丢失	检查水印设置，确保输出接收器支持精确一次
检查点失败	使用可靠存储，定期清理旧检查点
状态恢复慢	减少状态大小，增加恢复并行度