Hive+Spark离线数仓工业项目--ODS层及DWD层构建(2)

该博客详细介绍了在Hive和Spark上构建离线数据仓库ODS层和DWD层的过程。内容包括代码导入、项目结构、配置修改、ODS层的建库建表、申明分区、与DWD层的区别,以及DWD层的建库建表和数据抽取。重点讲述了连接Oracle和Hive、自动化建表、数据抽取的实现和测试,强调了代码重难点和整体构建思路。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ODS层构建:代码导入

目标:实现Python项目代码的导入及配置

实施

  Oracle本地驱动目录**:将提供的**instantclient_12_2**目录放入D盘的根目录下

 PyHive本地连接配置:将提供的CMU目录放入C盘的根目录下

auto_create_hive_table包

    创建路径包

 

      - 在datatohive的init文件中放入如下代码

      - 其他包的init都放入如下内容

将对应的代码文件放入对应的包或者目录中

      step1:从提供的代码中复制config、log、resource这三个目录直接粘贴到**auto_create_hive_table**包下

      step2:从提供的代码中复制entity、utils、EntranceApp.py这三个直接粘贴到**itcast**包下

  step3:从提供的代码中复制fileformat等文件直接粘贴到**datatohive**包下

 DW归档目录:将提供的代码中的dw目录直接粘贴到项目中

 ODS层构建:代码结构及修改

目标:了解整个自动化代码的项目结构及实现配置修改

路径

  - step1:工程代码结构
  - step2:代码模块功能
  - step3:代码配置修改

实施

工程代码结构

代码模块功能

    - `auto_create_hive_table`:用于实现ODS层与DWD层的建库建表的代码

      - `cn.itcast`
  
        - `datatohive`
  
          - CHiveTableFromOracleTable.py:用于创建Hive数据库、以及获取Oracle表的信息创建Hive表等
          - CreateMetaCommon.py:定义了建表时固定的一些字符串数据,数据库名称、分层名称、文件类型属性等
          - CreateHiveTablePartition.py:用于手动申明ODS层表的分区元数据
          - LoadData2DWD.py:用于实现将ODS层的数据insert到DWD层表中
          - `fileformat`
          - AvroTableProperties.py:Avro文件格式对象,用于封装Avro建表时的字符串
            - OrcTableProperties.py:Orc文件格式对象,用于封装Orc建表时的字符串
          - OrcSnappyTableProperties.py:Orc文件格式加Snappy压缩的对象
            - TableProperties.py:用于获取表的属性的类
  
      - `entity`
  
        - TableMeta.py:Oracle表的信息对象:用于将表的名称、列的信息、表的注释进行封装
          - ColumnMeta.py:Oracle列的信息对象:用于将列的名称、类型、注释进行封装
  
        - `utils`
  
          - OracleHiveUtil.py:用于获取Oracle连接、Hive连接

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值