Hadoop Parquet File 文件的读取

这篇博客介绍了如何使用Spark SQL从CSV文件中读取数据并转化为Parquet格式。首先,展示了如何生成Parquet数据,接着详细说明了读取Parquet文件的模式信息,包括字段名称和类型,最后演示了如何读取并以JSON格式展示Parquet文件中的数据。

产生parquet数据

这里通过Spark SQL来从CSV文件中读取数据,然后把这些数据存到parquet文件去。

        SparkContext context = new SparkContext(new           SparkConf().setMaster("local").setAppName("parquet")); 
        SQLContext sqlContext = new SQLContext(context);
        DataFrame dataFrame = sqlContext.read().format("com.databricks.spark.csv")
                .option("header","true") //这里如果在csv第一行有属性的话,没有就是"false"
                .option("inferSchema","true")//这是自动推断属性列的数据类型。
                .load("/hom
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值