Spark从HDFS上读取JSON数据

最新推荐文章于 2023-02-02 21:03:05 发布

转载最新推荐文章于 2023-02-02 21:03:05 发布 · 753 阅读

文章标签：

本文介绍了一个使用Apache Spark SQL从HDFS中读取JSON文件并进行查询的Java程序示例。该程序通过设置Spark应用程序配置，创建Spark上下文，并利用SQLContext来读取指定路径的JSON文件，然后注册为临时表，最后执行SQL查询筛选特定记录。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

代码如下：

import org.apache.spark.sql.Row;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.VoidFunction;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SQLContext;


public class QueryHDFSData {
    static SparkConf sparkConf = new SparkConf().setAppName("HDFSQuery").setMaster("local[2]");
    static JavaSparkContext sc = new JavaSparkContext(sparkConf);
    static SQLContext sqlContext = new SQLContext(sc);
    public static void main(String[] args){
//        JavaRDD<String> poi = sc.textFile("hdfs://node2:9000/user/flume/events/2015-11-27-21/events-.1448629506841");
        DataFrame df = sqlContext.read().json("hdfs://node2:9000/user/flume/events/2015-11-26-21/events-.1448543965316");
        // 打印模式
        df.printSchema();
        // 将数据框架注册成一个表
        df.registerTempTable("poi");
        // 使用sql语句从表中读取数据
        DataFrame poi = sqlContext.sql("SELECT * FROM poi WHERE cid=57425749418");
        JavaRDD<Row> row = poi.javaRDD();
        row.foreach(new VoidFunction<Row>(){
            @Override
            public void call(Row r) throws Exception {
                System.out.println(r.mkString());        
            }
            
        });
    }
}