Spark on Hive开发demo

最新推荐文章于 2025-07-04 16:40:45 发布

_PhotoAndCoding_

最新推荐文章于 2025-07-04 16:40:45 发布

阅读量1.1k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：开发技术 spark Spark大数据处理框架专栏文章标签： hive spark 大数据云计算

本文链接：https://blog.youkuaiyun.com/roczheng1990/article/details/83540122

本文通过Java API展示了如何在Spark上操作Hive，包括配置warehouse目录，读取Hive表数据，以及按条件筛选数据。示例中指出，`select *`不会生成MapReduce任务，而带条件的查询则会触发该任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

public class SparkHiveTest {
    public static void main(String[] args)
    {
        String warehouseLocation = "hdfs://10.1X4.XX2.XX2:9001/home/spark/ive/warehouse/";

        SparkSession spark = SparkSession.builder().appName
                ("Java Spark Hive Example")
                .master("local[4]")
                .config("spark.sql.warehouse.dir", warehouseLocation)
                .enableHiveSupport()
                .getOrCreate();

        Dataset<Row> df = spark.sql("SELECT * FROM test1");
        df.show();
        Dataset<Row> df2 = spark.sql("SELECT * FROM test2");
        df2.show();
        Dataset<Row> df3 = spark.sql("SELECT id,name FROM test1 where name = 'lucy'");
        System.out.println("#############name = lucy  size:"+ df3.count());
        spark.stop();
    }
}

基于Java Api的spark操作hivedemo：