
离线数仓
文章平均质量分 78
CODE20220318
这个作者很懒,什么都没留下…
展开
-
0922 理论知识
# 0922 理论知识## hive overwrite 动静态分区```#静态分区insert overwrite table dwt_test partition(dt='2022-09-22', part='2')select id,dt,part from dws_test#动态分区insert overwrite table dwt_test partition(dt=dt, part=part)select id,dt,part from dws_test#动静结合ins原创 2022-09-24 18:30:06 · 888 阅读 · 1 评论 -
0918 项目整理
# 0918 项目整理原创 2022-09-21 18:08:50 · 249 阅读 · 0 评论 -
0918 框架理论知识
0918 框架理论知识原创 2022-09-20 10:10:41 · 513 阅读 · 0 评论 -
0915 理论知识
0915 理论知识原创 2022-09-18 13:11:18 · 314 阅读 · 0 评论 -
0913 理论知识,项目
[TOC]# 0913 理论知识,项目## 提交模式yarn client ,yarn cluster>提交模式决定了应用和任务的运行方式。Yarn Client 用于监控Driver模块在客户端执行,而不是在Yarn中,过程如下;>1Driver在提交的本地机器启动>2Driver会与ResourceManager通讯申请启动ApplicationMaster>3ResourceManager分配contaienr,在正确的NodeManager上启动ApplicationMaster,负责原创 2022-09-17 18:05:54 · 484 阅读 · 0 评论 -
Imooc spark解析日志
Imooc[TOC]# Imooc>使用Spark SQL分析Imooc访问日志,数据以日志文件形式提供,共一千万条访问日志,5G数据量。>主要完成如下指标统计:>1.某天最后欢迎的TopN课程>2.某天各个省市各自的TopN课程>3.按照流量统计TopN课程>4.某天最受欢迎的文章>5.某天进行code最多的课程>6.某天最勤奋的IP>在使用spark开发时,可以以shell脚本形式编写sql进行数据处理,也可以使用scala借助rdd,table sql等处理数据,对于实时数仓也要原创 2022-08-11 16:22:06 · 350 阅读 · 0 评论 -
安装superset
安装superset原创 2022-08-08 15:49:57 · 244 阅读 · 0 评论 -
数据质量监控
>数据质量监控用于检测数据仓库的数据量,数据范围等是否在正常范围内,是否出现了异常的数据,如果出现异常的数据需要告警,并提醒开发人员。主要目标是产生可靠的数据,提升数据在使用中的价值。...原创 2022-08-01 12:31:12 · 1063 阅读 · 0 评论 -
数仓4.0总结
文章目录数仓4.0总结整体架构采集flume用法flume自定义拦截器flume配置文件sqoop用法碰到的问题hive无法使用load导入hdfs采集的数据vim 本质是创建新文件hive仓库ODSDIMdim_sku_infoDWDDWSDWTADS碰到的问题迁移数据sqoop用法碰到的问题可视化superset用法碰到的问题服务监控脚本任务调度数据质量管理数仓4.0总结bili资源:数仓4.0整体架构采集,hive仓库,迁移数据,可视化采集flume用法flume自定义拦截器原创 2022-03-30 21:25:09 · 1192 阅读 · 0 评论