Spark SQL 的离线数仓开发

1. SparkSQL的离线数仓开发

1.1 Spark SQL 的元数据管理

DataFrame数据

dataframe中的结构化数据管理

dataframe中通过StructType保存管理表的元数据

dataframe中通过Row保存管理行数据


dateframe可以形成一张表

Hive的映射表

在数据仓库中通过映射表管理结构化数据

表元数据 通过hive的metastore管理

表的行数据 通过hdfs的文件进行管理

对映射表进行HiveSQL开发

Spark的映射表

Spark可以将数据转为映射表数据

表的元数据 还是使用metastore管理

表的行数据 使用hdfs的文件进行存储管理

在开发时使用SparkSQL客户端

1.2 配置Spark的metastore服务

将hive的hive-site.xml配置文件拷贝到spark的conf目录下。

 cp /export/server/hive/conf/hive-site.xml /export/server/spark/conf/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值