
大数据-269 实时数仓 - DIM DW ADS 层处理 Scala实现将数据写出HBase等
DW(Data WareHouse 数据仓库层),包含 DWD、DWS、DIM 层数据加工而成,主要完成数据架构与整合,建立一致性的维度,构建可复用的面向分析和统计的明细事实表,以及汇总公共粒度的指标。基于 DW 数据,整合汇总成主题域的服务数据,用于提供后续的业务查询等。在分析交易过程时,可以通过卖家、买家、商品和时间等维度描述交易发生的环境,所以维度的作用一般是查询约束、分类汇总以及排序等。转换 area 表 到 地区ID、地区的名字、城市ID、城市的名字、省份 ID、省份的名字 到 HBase 中。



IDEA 上使用 Scala开发Spark并操作Hudi报错为:org.apache.spark.sql.adapter.Spark3_1Adapter
该错误由Spark与Hudi版本不兼容或IDEA中的Hudi依赖缺失引起。Hudi 0.10.x支持Spark 3.0.x,而Hudi 0.11.x支持Spark 3.1.x等。首先,检查pom.xml是否正确添加了与Spark版本兼容的Hudi依赖,例如hudi-spark3.1-bundle_2.12。然后,检查服务器上是否存在正确版本的Hudi JAR包,如无,需要从Maven仓库下载并上传至Spark的jars目录。若在服务器运行,确保在spark-submit命令中指定了Hudi的JAR路径。
