Carbondata + Spark

本文详细介绍如何在Spark环境中使用CarbonData进行数据操作,包括配置环境、创建表、加载数据及执行SQL查询等步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. Spark环境

2. carbondata_XXX.jar 包

3. carbon.properties配置文件:

#carbon.storelocation
carbon.storelocation=/tmp/carbon/carbonStore

#carbon.ddl.base.hdfs.url
carbon.ddl.base.hdfs.url=/tmp/carbon/data

#carbon.lock.type
carbon.lock.type=HDFSLOCK

4. 

1. 启动
./bin/spark-shell --jars LOCAL_PATH/carbondata.jar

2. 引包:
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.CarbonSession._

3. 创建CarbonSession:
scala> 
val carbon = SparkSession.builder().config(sc.getConf).getOrCreateCarbonSession("hdfs://ns9/tmp/carbon/carbonStore")

4. 执行sql语句:

创建表:
scala> 
carbon.sql("create table test.carbon_test(id STRING, name STRING, city STRING, age INT) STORED BY 'carbondata'")

删除表:
scala> 
carbon.sql("drop table test.carbon_test")

查询表数据:
scala> 
carbon.sql("select * from  test.carbon_test").show

5. 加载数据:
    a. 创建sample数据:
        本地创建文件:
            cat > 
                    sample.csv << EOF
                    id,name,city,age
                    1,david,shenzhen,31
                    2,eason,shenzhen,27
                    3,jarry,wuhan,35
                    EOF
    b. put 到 HDFS:
        hdfs dfs -put sample.csv /tmp/carbon/data/sample.csv

    c. LOAD数据到表中:
        scala> 
carbon.sql("LOAD DATA INPATH 'hdfs://ns9/tmp/carbon/data/sample.csv' INTO TABLE test.carbon_test")

(文件的绝对路径)

    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值