
离线数据仓库
文章平均质量分 51
超级通勤者
28岁的大龄大数据码农,持续更新大数据相关知识。
展开
-
Hive 优化案例1: Hive 压缩
MapReduce 支持的压缩编码压缩格式是否可切分DEFAULT否Gzip否bzip2是LZO是Snappy否压缩参数配置输入端压缩io.compression.codecsorg.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2C原创 2021-06-07 14:02:42 · 219 阅读 · 0 评论 -
Hive错误排查经验
2021-06-02错误信息1日志排查解决方案(1)在hadoop下的etc/hadoop中的配置文件hadoop-env.sh中修改如下配置:export HADOOP_CLIENT_OPTS="-Xmx2048m $HADOOP_CLIENT_OPTS"(2)在hive下的bin目录下的配置文件hive-config.sh中修改如下配置:export HADOOP_HEAPSIZE=${HADOOP_HEAPSIZE:-2048}...原创 2021-06-02 17:04:00 · 412 阅读 · 0 评论 -
拉链表总结
2021.1.1 的用户全量表:用户 ID姓名1张三2李四3王五2021.1.2 的用户全量表用户 ID姓名1张三2李小四3王五4赵六5田七一、得到 2021.1.1 的初始化拉链表:用户 ID姓名开始时间结束时间1张三2019-01-019999-99-992李四2019-01-019999-99-993王五2019-01-019999-99-原创 2021-05-25 17:05:54 · 207 阅读 · 0 评论 -
ETL技术总结
一、ETL 清洗规则1、解析数据在 Hive 中一般使用 UDTF 函数2、核心字段解析(1)核心字段为空select ...from ...where xxx is not null;(2)核心字段有错误例: 订单金额 < 0 的数据要过滤掉select ...from ...where order_amount >= 0;3. 重复数据一般有两种方式:(1)group by(2)使用 Hive 的开窗函数,取窗口的第1条4. 超时信息二、E原创 2021-05-25 16:15:11 · 672 阅读 · 0 评论 -
dwd层知识点总结(2021-05-18更新)
面试知识点1: 维度建模的4大步骤1、选择业务过程2、声明粒度3、确定维度4、确定事实1.1 选择业务过程原则:(1)根据统计的需求指标来选择(2)中小型公司: 全部业务过程(3)中大型公司: 选择业务过程,不需要把所有表的数据导过来例: 用户表 -> 购物车表、订单表(优惠券表)-> 订单详情表 -> 支付表(退单表)-> 评价表、收藏表1.2 声明粒度在 dwd 层不做聚合操作,选择最小粒度进行分析。表格粒度案例1订单表1 次原创 2021-05-18 16:18:17 · 918 阅读 · 0 评论 -
大数据技能01: Sqoop
MySQL -> HDFS将 MySQL 中 user_info 表格数据导入到 HDFS 的 /test 路径下1、MySQL 参数序号参数参数值1–connectjdbc:mysql://hadoop102:3306/gmall2–usernameroot3–password2、HDFS 参数序号参数参数值含义1–target-dir/testHDFS路径2–delete-target-dir路径原创 2021-05-17 14:56:00 · 150 阅读 · 0 评论 -
Shell脚本
1、第一行写#!/bin/bash#!/bin/bash2、定义变量2.1 定义 Hive 路径hive = /opt/module/hive/bin/hive2.2 定义数据库名称APP = gmall3、获取时间默认按照 T - 1 的数据跑脚本if [ -n "$1" ]then do_date = $1else do_date = `date -d '-1 day' + %F`fi4、定义sql(1)时间 -> $do_date(2)数据库 ->原创 2021-05-12 17:23:10 · 105 阅读 · 0 评论 -
ods层知识点总结
日志表 ods_log1、原始数据{“common”: { },“start”: { },“err”: { },“ts”: { }}2、如果要创建的表已经存在,先删除该表在这里插入代码片3、创建一张外部表原创 2021-05-12 17:14:17 · 836 阅读 · 0 评论