Carbondata + Spark

最新推荐文章于 2023-09-01 17:41:58 发布

原创最新推荐文章于 2023-09-01 17:41:58 发布 · 743 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文详细介绍如何在Spark环境中使用CarbonData进行数据操作，包括配置环境、创建表、加载数据及执行SQL查询等步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. Spark环境

2. carbondata_XXX.jar 包

3. carbon.properties配置文件:

#carbon.storelocation
carbon.storelocation=/tmp/carbon/carbonStore

#carbon.ddl.base.hdfs.url
carbon.ddl.base.hdfs.url=/tmp/carbon/data

#carbon.lock.type
carbon.lock.type=HDFSLOCK

4.

1. 启动
./bin/spark-shell --jars LOCAL_PATH/carbondata.jar

2. 引包：
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.CarbonSession._

3. 创建CarbonSession：
scala> 
val carbon = SparkSession.builder().config(sc.getConf).getOrCreateCarbonSession("hdfs://ns9/tmp/carbon/carbonStore")

4. 执行sql语句：

创建表：
scala> 
carbon.sql("create table test.carbon_test(id STRING, name STRING, city STRING, age INT) STORED BY 'carbondata'")

删除表：
scala> 
carbon.sql("drop table test.carbon_test")

查询表数据：
scala> 
carbon.sql("select * from  test.carbon_test").show

5. 加载数据：
    a. 创建sample数据：
        本地创建文件：
            cat > 
                    sample.csv << EOF
                    id,name,city,age
                    1,david,shenzhen,31
                    2,eason,shenzhen,27
                    3,jarry,wuhan,35
                    EOF
    b. put 到 HDFS：
        hdfs dfs -put sample.csv /tmp/carbon/data/sample.csv

    c. LOAD数据到表中：
        scala> 
carbon.sql("LOAD DATA INPATH 'hdfs://ns9/tmp/carbon/data/sample.csv' INTO TABLE test.carbon_test")

(文件的绝对路径)

博客等级

码龄10年

69
原创

36
点赞

76
收藏

40
粉丝

关注

私信

热门文章

分类专栏

Spark On Kubernetes 付费 9篇
spark 付费 10篇
Git 付费 3篇
报错记录付费 14篇
Spark源码分析 7篇
大数据 4篇
jvm 1篇
工具 1篇
魅力安卓 6篇
Android 15篇
SSH 1篇
数据库 1篇
Java 4篇
随手记 17篇

展开全部收起

上一篇：: mvn install 本地jar包

下一篇：: Ubuntu安装hive

最新评论

Jenkins+Gitlab配置Private token不生效，报错：Client error: HTTP 401 Unauthorized
wyg2013374209: 这个问题还有别的原因，就是gitlab权限不够，最少是maintainer的权限才能通过
Jenkins+Gitlab配置Private token不生效，报错：Client error: HTTP 401 Unauthorized
Niu_Hongyang: idea里没有这个API-level的选项我看我拉的一直是v4，不知道怎么改成v3。至于token我试了所有组合都不行。
Jenkins+Gitlab配置Private token不生效，报错：Client error: HTTP 401 Unauthorized
水平则静: 没有这个API-Level选项。。囧
mvn install 本地jar包
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用标准目录；(2)使用更多的站内链接；(3)增加除了各种控件外，文章正文的字数。
Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:compile
merrily01: 有时候本地编译其他项目的时候也会遇到类似莫名其妙的问题，找不到的包可能五花八门，不见得是同一个包。关于文章中的一些手段，都不奏效的话。可以尝试，将maven repository删掉，基于项目重新下载，可能会有效。具体原因不是很确定，不过猜测可能是项目或设置中有涉及repo位置的地方，通过修改setting和repo位置未解决，最后将默认setting中的repo清空后，再次编译，问题解决了。 ----- 记Kyuubi项目编译过程中，再次出现类似问题。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。