Apache Spark Java 示例：DataFrame 数据分析-优快云博客

本文链接：https://blog.youkuaiyun.com/csdn_tom_168/article/details/149357952

Apache Spark Java 示例：DataFrame 数据分析

本文将详细介绍如何使用 Apache Spark 的 DataFrame API 进行高效的数据分析。DataFrame 是 Spark 中处理结构化数据的核心抽象，提供了类似 SQL 的查询能力和优化的执行引擎。

电商数据分析场景

我们将分析一个电商数据集，包含以下信息：

用户信息（用户ID、年龄、性别、城市）
订单信息（订单ID、用户ID、产品ID、数量、价格、订单日期）
产品信息（产品ID、产品名称、类别、价格）

完整实现代码

import org.apache.spark.sql.*;
import org.apache.spark.sql.types.*;
import org.apache.spark.sql.expressions.Window;
import org.apache.spark.sql.expressions.WindowSpec;
import static org.apache.spark.sql.functions.*;

import java.util.Arrays;
import java.util.List;

public class EcommerceDataAnalysis {

    public static void main(String[] args) {
        // 1. 创建SparkSession
        SparkSession spark = SparkSession.builder()
                .appName("E-commerce Data Analysis")
                .master("local[*]") // 本地模式，生产环境应使用集群模式
                .config("spark.sql.shuffle.partitions", "8") // 优化shuffle分区数
                .getOrCreate();

        try {
            // 2. 创建模拟数据集
            Dataset<Row> usersDF = createUsersDataFrame(spark);
            Dataset<Row> ordersDF = createOrdersDataFrame(spark);
            Dataset<Row> productsDF = createProductsDataFrame(spark);
            
            // 3. 注册临时视图
            usersDF.createOrReplaceTempView("users");
            ordersDF.createOrReplaceTempView("orders");
            productsDF.createOrReplaceTempView("products");
            
            // 4. 执行数据分析任务
            analyzeUserBehavior(spark);
            analyzeSalesTrends(spark);
            analyzeProductPerformance(spark);
            analyzeRegionalSales(spark);
            customerSegmentation(spark);
            
        } catch (Exception e) {
            System.err.println("数据分析过程中发生错误: " + e.getMessage());
            e.printStackTrace();
        } finally {
            // 5. 关闭SparkSession
            spark.close();
        }
    }
    
    // ===================== 数据创建方法 =====================
    
    /**
     * 创建用户DataFrame
     */
    private static Dataset<Row> createUsersDataFrame(SparkSession spark) {
        // 定义schema
        StructType schema = new StructType()
            .add("user_id", DataTypes.IntegerType)
            .add("name", DataTypes.StringType)
            .add("age", DataTypes.IntegerType)
            .add("gender", DataTypes.StringType)
            .add("city", DataTypes.StringType)
            .add("join_date", DataTypes.DateType);
        
        // 创建数据
        List<Row> userData = Arrays.asList(
            RowFactory.create(1, "Alice", 28, "F", "New York", sqlDate("2020-01-15")),
            RowFactory.create(2, "Bob", 32, "M", "Los Angeles", sqlDate("2019-05-20")),
            RowFactory.create(3, "Charlie", 25, "M", "Chicago", sqlDate("2021-03-10")),
            RowFactory.create(4, "Diana", 35, "F", "San Francisco", sqlDate("2018-11-05")),
            RowFactory.create(5, "Eva", 29, "F", "Boston", sqlDate("2020-07-22")),
            RowFactory.create(6, "Frank", 42, "M", "Seattle", sqlDate("2017-09-18")),
            RowFactory.create(7, "Grace", 31, "F", "Austin", sqlDate("2019-12-30")),
            RowFactory.create(8, "Henry", 27, "M", "Miami", sqlDate("2022-02-14"))
        );
        
        return spark.createDataFrame(userData, schema);
    }
    
    /**
     * 创建订单DataFrame
     */
    private static Dataset<Row> createOrdersDataFrame(SparkSession spark) {
        StructType schema = new StructType()
            .add("order_id", DataTypes.IntegerType)
            .add("user_id", DataTypes.IntegerType)
            .add("product_id", DataTypes.IntegerType)
            .add("quantity", DataTypes.IntegerType)
            .add("price", DataTypes.DoubleType)
            .add("order_date", DataTypes.DateType);
        
        List<Row> orderData = Arrays.asList(
            RowFactory.create(101, 1, 1001, 2, 49.99, sqlDate("2023-01-10")),
            RowFactory.create(102, 2, 1002, 1, 129.99, sqlDate("2023-01-12")),
            RowFactory.create(103, 1, 1003, 1, 79.99, sqlDate("2023-01-15")),
            RowFactory.create(104, 3, 1001, 3, 49.99, sqlDate("2023-02-05")),
            RowFactory.create(105, 4, 1004, 2, 24.99, sqlDate("2023-02-18")),
            RowFactory.create(106, 2, 1005, 1, 199.99, sqlDate("2023-03-02")),
            RowFactory.create(107, 5, 1002, 1, 129.99, sqlDate("2023-03-10")),
            RowFactory.create(108, 6, 1003, 2, 79.99, sqlDate("2023-03-15")),
            RowFactory.create(109, 7, 1001, 1, 49.99, sqlDate("2023-04-01")),
            RowFactory.create(110, 3, 1005, 1, 199.99, sqlDate("2023-04-05")),
            RowFactory.create(111, 8, 1004, 3, 24.99, sqlDate("2023-04-12")),
            RowFactory.create(112, 4, 1002, 2, 129.99, sqlDate("2023-05-20"))
        );
        
        return spark.createDataFrame(orderData, schema);
    }
    
    /**
     * 创建产品DataFrame
     */
    private static Dataset<Row> createProductsDataFrame(SparkSession spark) {
        StructType schema = new StructType()
            .add("product_id", DataTypes.IntegerType)
            .add("product_name", DataTypes.StringType)
            .add("category", DataTypes.StringType)
            .add("price", DataTypes.DoubleType);
        
        List<Row> productData = Arrays.asList(
            RowFactory.create(1001, "Wireless Headphones", "Electronics", 49.99),
            RowFactory.create(1002, "Smart Watch", "Electronics", 129.99),
            RowFactory.create(1003, "Running Shoes", "Sports", 79.99),
            RowFactory.create(1004, "Coffee Maker", "Home", 24.99),
            RowFactory.create(1005, "Bluetooth Speaker", "Electronics", 199.99)
        );
        
        return spark.createDataFrame(productData, schema);
    }
    
    // 辅助方法：将字符串转换为SQL日期
    private static java.sql.Date sqlDate(String dateStr) {
        return java.sql.Date.valueOf(dateStr);
    }
    
    // ===================== 数据分析方法 =====================
    
    /**
     * 分析1: 用户行为分析
     * - 每个用户的订单总数和总消费金额
     * - 用户平均订单价值
     * - 用户最近购买日期
     */
    private static void analyzeUserBehavior(SparkSession spark) {
        System.out.println("\n==================== 用户行为分析 ====================");
        
        // 方法1: 使用DataFrame API
        Dataset<Row> userBehavior = spark.table("orders")
            .join(spark.table("users"), "user_id")
            .groupBy("user_id", "name", "city")
            .agg(
                count("order_id").alias("order_count"),
                sum(expr("quantity * price")).alias("total_spent"),
                avg(expr("quantity * price")).alias("avg_order_value"),
                max("order_date").alias("last_order_date")
            )
            .orderBy(desc("total_spent"));
        
        System.out.println("用户消费行为分析:");
        userBehavior.show();
        
        // 方法2: 使用SQL查询
        spark.sql(
            "SELECT u.user_id, u.name, u.city, " +
            "       COUNT(o.order_id) AS order_count, " +
            "       SUM(o.quantity * o.price) AS total_spent, " +
            "       AVG(o.quantity * o.price) AS avg_order_value, " +
            "       MAX(o.order_date) AS last_order_date " +
            "FROM orders o " +
            "JOIN users u ON o.user_id = u.user_id " +
            "GROUP BY u.user_id, u.name, u.city " +
            "ORDER BY total_spent DESC"
        ).show();
    }
    
    /**
     * 分析2: 销售趋势分析
     * - 每月销售总额
     * - 每月订单数量
     * - 月环比增长率
     */
    private static void analyzeSalesTrends(SparkSession spark) {
        System.out.println("\n==================== 销售趋势分析 ====================");
        
        // 计算每月销售数据
        Dataset<Row> monthlySales = spark.table("orders")
            .withColumn("month", date_format(col("order_date"), "yyyy-MM"))
            .groupBy("month")
            .agg(
                sum(expr("quantity * price")).alias("total_sales"),
                countDistinct("order_id").alias("order_count")
            )
            .orderBy("month");
        
        // 计算月环比增长率
        WindowSpec window = Window.orderBy("month");
        Dataset<Row> salesGrowth = monthlySales
            .withColumn("prev_sales", lag("total_sales", 1).over(window))
            .withColumn("sales_growth", 
                when(col("prev_sales").isNull(), 0.0)
                .otherwise((col("total_sales") - col("prev_sales")) / col("prev_sales") * 100)
            )
            .select("month", "total_sales", "order_count", "sales_growth");
        
        System.out.println("月度销售趋势:");
        salesGrowth.show();
    }
    
    /**
     * 分析3: 产品表现分析
     * - 最畅销产品（按销售额）
     * - 各产品类别的销售占比
     * - 产品价格分布
     */
    private static void analyzeProductPerformance(SparkSession spark) {
        System.out.println("\n==================== 产品表现分析 ====================");
        
        // 产品销售额排名
        Dataset<Row> productSales = spark.table("orders")
            .join(spark.table("products"), "product_id")
            .groupBy("product_id", "product_name", "category")
            .agg(
                sum(expr("quantity * orders.price")).alias("total_sales"),
                sum("quantity").alias("total_quantity")
            )
            .orderBy(desc("total_sales"));
        
        System.out.println("产品销售额排名:");
        productSales.show();
        
        // 产品类别销售占比
        Dataset<Row> categorySales = spark.table("orders")
            .join(spark.table("products"), "product_id")
            .groupBy("category")
            .agg(
                sum(expr("quantity * orders.price")).alias("category_sales")
            )
            .withColumn("sales_percentage", 
                col("category_sales") / sum("category_sales").over() * 100
            )
            .orderBy(desc("category_sales"));
        
        System.out.println("产品类别销售占比:");
        categorySales.show();
    }
    
    /**
     * 分析4: 区域销售分析
     * - 各城市销售总额
     * - 各城市用户平均消费
     * - 区域销售分布
     */
    private static void analyzeRegionalSales(SparkSession spark) {
        System.out.println("\n==================== 区域销售分析 ====================");
        
        Dataset<Row> regionalSales = spark.table("orders")
            .join(spark.table("users"), "user_id")
            .groupBy("city")
            .agg(
                sum(expr("quantity * orders.price")).alias("total_sales"),
                countDistinct("user_id").alias("user_count"),
                avg(expr("quantity * orders.price")).alias("avg_spent_per_user")
            )
            .orderBy(desc("total_sales"));
        
        System.out.println("区域销售分析:");
        regionalSales.show();
    }
    
    /**
     * 分析5: 客户分群
     * - 按消费金额分群（高价值、中价值、低价值）
     * - 按购买频率分群（活跃、普通、不活跃）
     * - RFM分析（Recency, Frequency, Monetary）
     */
    private static void customerSegmentation(SparkSession spark) {
        System.out.println("\n==================== 客户分群分析 ====================");
        
        // 计算RFM指标
        Dataset<Row> rfmData = spark.table("orders")
            .join(spark.table("users"), "user_id")
            .groupBy("user_id", "name")
            .agg(
                max("order_date").alias("last_order_date"),
                count("order_id").alias("frequency"),
                sum(expr("quantity * orders.price")).alias("monetary")
            )
            .withColumn("recency", 
                datediff(current_date(), col("last_order_date"))
            );
        
        // RFM分群
        Dataset<Row> customerSegments = rfmData
            .withColumn("recency_score", 
                when(col("recency").leq(30), 5)
                .when(col("recency").leq(60), 4)
                .when(col("recency").leq(90), 3)
                .when(col("recency").leq(180), 2)
                .otherwise(1)
            )
            .withColumn("frequency_score",
                when(col("frequency").geq(10), 5)
                .when(col("frequency").geq(5), 4)
                .when(col("frequency").geq(3), 3)
                .when(col("frequency").geq(2), 2)
                .otherwise(1)
            )
            .withColumn("monetary_score",
                when(col("monetary").geq(1000), 5)
                .when(col("monetary").geq(500), 4)
                .when(col("monetary").geq(200), 3)
                .when(col("monetary").geq(100), 2)
                .otherwise(1)
            )
            .withColumn("rfm_score", 
                col("recency_score").multiply(100)
                .plus(col("frequency_score").multiply(10))
                .plus(col("monetary_score"))
            )
            .withColumn("segment",
                when(col("rfm_score").geq(555), "冠军客户")
                .when(col("rfm_score").geq(444), "高价值客户")
                .when(col("rfm_score").geq(333), "潜力客户")
                .when(col("rfm_score").geq(222), "一般保持客户")
                .when(col("rfm_score").geq(111), "流失风险客户")
                .otherwise("流失客户")
            );
        
        System.out.println("客户分群分析:");
        customerSegments.select("user_id", "name", "recency", "frequency", "monetary", "segment").show();
        
        // 各分群统计
        System.out.println("客户分群分布:");
        customerSegments.groupBy("segment")
            .count()
            .orderBy(desc("count"))
            .show();
    }
}

DataFrame API 核心概念详解

1. DataFrame 与 Dataset 的关系

RDD：低级API，弹性分布式数据集
DataFrame：Dataset[Row]的别名，结构化数据抽象
Dataset：类型安全的API，结合了RDD和DataFrame的优点

2. 核心操作类型

操作类型	描述	示例
转换(Transformations)	惰性操作，生成新DataFrame	`select()`, `filter()`, `groupBy()`
动作(Actions)	触发计算并返回结果	`show()`, `count()`, `collect()`
聚合(Aggregations)	数据汇总统计	`sum()`, `avg()`, `max()`
连接(Joins)	合并多个DataFrame	`join()`, `crossJoin()`
窗口函数(Window)	高级分析功能	`rank()`, `lag()`, `lead()`

3. 数据读写操作

A. 读取数据源

// 读取CSV文件
Dataset<Row> df = spark.read()
    .format("csv")
    .option("header", "true")
    .option("inferSchema", "true")
    .load("path/to/file.csv");

// 读取Parquet文件
Dataset<Row> df = spark.read().parquet("path/to/parquet");

// 读取JSON文件
Dataset<Row> df = spark.read().json("path/to/json");

// 从JDBC读取
Dataset<Row> df = spark.read()
    .format("jdbc")
    .option("url", "jdbc:postgresql://localhost/db")
    .option("dbtable", "table_name")
    .option("user", "username")
    .option("password", "password")
    .load();

B. 写入数据

// 写入Parquet文件
df.write().parquet("output/path");

// 写入CSV文件
df.write()
    .option("header", "true")
    .csv("output/path");

// 写入JDBC
df.write()
    .format("jdbc")
    .option("url", "jdbc:postgresql://localhost/db")
    .option("dbtable", "new_table")
    .option("user", "username")
    .option("password", "password")
    .save();

4. 数据转换操作

A. 列操作

// 添加新列
df.withColumn("total", col("quantity").multiply(col("price")));

// 重命名列
df.withColumnRenamed("old_name", "new_name");

// 删除列
df.drop("unused_column");

// 类型转换
df.withColumn("price", col("price").cast("double"));

B. 行操作

// 过滤行
df.filter(col("age").gt(18));

// 去重
df.dropDuplicates("user_id");

// 采样
df.sample(0.1); // 10%采样

C. 聚合操作

df.groupBy("category")
  .agg(
      sum("price").alias("total_sales"),
      avg("price").alias("avg_price"),
      countDistinct("product_id").alias("unique_products")
  );

5. 高级分析功能

A. 窗口函数

import org.apache.spark.sql.expressions.Window;
import static org.apache.spark.sql.functions.*;

WindowSpec windowSpec = Window.partitionBy("category").orderBy(desc("price"));

df.withColumn("rank", rank().over(windowSpec))
  .withColumn("price_diff", col("price") - lag("price", 1).over(windowSpec));

B. 用户定义函数(UDF)

// 注册UDF
spark.udf().register("toUpperCase", (String s) -> s.toUpperCase(), DataTypes.StringType);

// 使用UDF
df.select(callUDF("toUpperCase", col("name")).alias("upper_name"));

C. 复杂类型处理

// 处理数组类型
df.select(explode(col("array_column")).alias("element"));

// 处理JSON字符串
df.select(from_json(col("json_column"), schema).alias("parsed_json"));

性能优化策略

1. 数据分区优化

// 重分区
df.repartition(8, col("category"));

// 合并小分区
df.coalesce(4);

2. 缓存策略

// 缓存DataFrame
df.persist(StorageLevel.MEMORY_AND_DISK());

// 释放缓存
df.unpersist();

3. 执行计划优化

// 查看执行计划
df.explain();

// 启用AQE（自适应查询执行）
spark.conf.set("spark.sql.adaptive.enabled", "true");

4. Join优化

// 广播小表
df1.join(broadcast(df2), "key");

// 设置Join策略
spark.conf.set("spark.sql.autoBroadcastJoinThreshold", "10485760"); // 10MB

Spark SQL 与 DataFrame API 对比

特性	DataFrame API	Spark SQL
语法风格	链式方法调用	SQL语句
可读性	中等	高（对熟悉SQL的用户）
灵活性	高（可结合编程逻辑）	中等
类型安全	编译时检查	运行时检查
复杂逻辑	易于实现	需要UDF
性能	相同（底层优化器相同）	相同

生产环境最佳实践

1. 集群配置建议

spark-submit \
  --class EcommerceDataAnalysis \
  --master yarn \
  --deploy-mode cluster \
  --num-executors 20 \
  --executor-cores 4 \
  --executor-memory 8G \
  --conf spark.sql.shuffle.partitions=200 \
  --conf spark.sql.adaptive.enabled=true \
  --conf spark.serializer=org.apache.spark.serializer.KryoSerializer \
  your-application.jar

2. 监控与调优

Spark UI：监控作业执行情况
Spark History Server：查看历史作业
Prometheus + Grafana：实时监控集群指标
日志分析：使用ELK堆栈分析日志

3. 数据湖集成

// 读写Delta Lake
df.write().format("delta").save("/delta/events");
Dataset<Row> df = spark.read().format("delta").load("/delta/events");

// 读写Iceberg
df.write().format("iceberg").save("db.table");
Dataset<Row> df = spark.read().format("iceberg").load("db.table");

实际应用场景扩展

1. 实时数据管道

// 读取Kafka流
Dataset<Row> kafkaStream = spark.readStream()
    .format("kafka")
    .option("kafka.bootstrap.servers", "broker:9092")
    .option("subscribe", "orders")
    .load();

// 解析JSON数据
Dataset<Row> orders = kafkaStream.select(
    from_json(col("value").cast("string"), orderSchema).alias("order")
).select("order.*");

// 实时分析
Dataset<Row> realTimeAnalysis = orders
    .withWatermark("order_date", "1 hour")
    .groupBy(window(col("order_date"), "1 hour"))
    .agg(sum("price").alias("hourly_sales"));

// 输出到控制台
realTimeAnalysis.writeStream()
    .outputMode("complete")
    .format("console")
    .start()
    .awaitTermination();

2. 机器学习集成

import org.apache.spark.ml.feature.VectorAssembler;
import org.apache.spark.ml.clustering.KMeans;

// 准备特征向量
VectorAssembler assembler = new VectorAssembler()
    .setInputCols(new String[]{"recency", "frequency", "monetary"})
    .setOutputCol("features");

Dataset<Row> featureData = assembler.transform(rfmData);

// K-Means聚类
KMeans kmeans = new KMeans().setK(5).setSeed(42);
KMeansModel model = kmeans.fit(featureData);

// 预测客户分群
Dataset<Row> clusteredData = model.transform(featureData);

3. 图数据分析

import org.apache.graphframes.GraphFrame;

// 创建顶点DataFrame
Dataset<Row> vertices = spark.createDataFrame(Arrays.asList(
    RowFactory.create(1, "Alice"),
    RowFactory.create(2, "Bob"),
    RowFactory.create(3, "Charlie")
), new StructType()
    .add("id", DataTypes.IntegerType)
    .add("name", DataTypes.StringType));

// 创建边DataFrame
Dataset<Row> edges = spark.createDataFrame(Arrays.asList(
    RowFactory.create(1, 2, "friend"),
    RowFactory.create(2, 3, "follow"),
    RowFactory.create(1, 3, "friend")
), new StructType()
    .add("src", DataTypes.IntegerType)
    .add("dst", DataTypes.IntegerType)
    .add("relationship", DataTypes.StringType));

// 创建图
GraphFrame graph = new GraphFrame(vertices, edges);

// 执行PageRank算法
GraphFrame result = graph.pageRank().resetProbability(0.15).maxIter(10).run();
result.vertices().show();