
数据仓库
文章平均质量分 84
大数据实战项目之数据仓库!冲!
FunnyPrince_
种一棵树最好的时间是十年前,其次是现在,我要开始种树啦。
展开
-
数据仓库之电商数仓-- 5、即席查询Kylin
目录一、Kylin1.1 Kylin简介1.1.1 Kylin定义1.1.2 Kylin相关术语1.1.3Kylin架构1.1.4 Kylin特点一、Kylin1.1 Kylin简介1.1.1 Kylin定义Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。1.1.2 Kylin相关术语Data Warehouse (数据原创 2021-10-29 23:20:07 · 1585 阅读 · 0 评论 -
记录kylin成功启动,访问页面404问题
⚠️报错:Failed to find metadata store by url: kylin_metadata@hbaseat org.springframework.beans.factory.annotation.AutowiredAnnotationBeanPostProcessor$AutowiredFieldElement.inject(AutowiredAnnotationBeanPostProcessor.java:588) at org.springframewor原创 2021-10-29 00:39:54 · 2822 阅读 · 4 评论 -
大数据之HBase部署
一、HBase简介1.1 HBase定义HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。1.2 HBase数据模型逻辑上,HBase 的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从 HBase 的底层物理存储结构(K-V)来看,HBase 更像是一个 multi-dimensional map。1.2.1 HBase逻辑结构1.2.2 HBase 物理存储结构1.2.3 数据模型Name Space命名空间,类似于关系型数据库的 Datab原创 2021-10-28 20:20:41 · 467 阅读 · 0 评论 -
数据仓库之电商数仓-- 4、可视化报表Superset
目录一、Superset入门1.1 Superset概述1.2 Superset应用场景二、Superset安装及使用2.1 安装Python环境2.1.1 安装Miniconda2.1.2 创建Python3.7环境2.2 Superset部署一、Superset入门1.1 Superset概述Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图表展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。1.2 Superset应用场景由于S原创 2021-10-26 21:38:21 · 1143 阅读 · 0 评论 -
数据仓库之电商数仓-- 3.4、电商数据仓库系统(ADS层)
#!/bin/bashAPP=gmallif [ -n "$2" ] ;then do_date=$2else echo "请传入日期参数" exitfidws_visitor_action_daycount="insert overwrite table ${APP}.dws_visitor_action_daycount partition(dt='$do_date')select t1.mid_id, t1.brand, t1.model原创 2021-10-24 17:45:46 · 2488 阅读 · 0 评论 -
大数据之Azkaban部署
目录一、Azkaban概论1.1 为什么需要工作流调度系统1.2 常见工作流调度系统1.3 Azkaban 与 Oozie 对比二、Azkaban集群安装2.1 集群模式安装2.1.1 安装包准备2.1.2 配置 MySQL2.1.3 配置 Executor Server2.1.4 配置 Web Server2.2 Work Flow 案例2.2.1 HelloWorld2.2.2 作业依赖案例2.2.3 自动失败重试案例2.2.4 手动失败重试案例三、Azkaban进阶3.1 JavaProcess 作原创 2021-10-23 16:51:08 · 1305 阅读 · 0 评论 -
记录执行hivesql时报org.apache.hadoop.hdfs.BlockMissingException:Could not obtain block错误
在执行hive sql时明明已经插入了数据,可是过了一会儿查询的时候数据表为空,而且报以下错误,以前也经常遇到,搞得我一直重新插入数据反反复复,今天终于找到了root cause⬇️⚠️报错:org.apache.hadoop.hdfs.BlockMissingException:Could not obtain block: BP-1094756810-192.168.10.102-1623427145615:blk_1073755935_15114 file=/warehouse/gmall/ads原创 2021-10-20 22:19:16 · 2701 阅读 · 0 评论 -
数据仓库之电商数仓-- 3.3、电商数据仓库系统(DWT层)
目录八、数仓搭建-DWT层8.1 访客主题8.2 用户主题8.3 商品主题8.4 优惠券主题8.5 活动主题8.6 地区主题8.7 DWT层首日数据导入脚本8.8 DWT层每日数据导入脚本八、数仓搭建-DWT层8.1 访客主题建表语句DROP TABLE IF EXISTS dwt_visitor_topic;CREATE EXTERNAL TABLE dwt_visitor_topic( `mid_id` STRING COMMENT '设备id', `brand` STR原创 2021-10-20 00:33:17 · 741 阅读 · 0 评论 -
数据仓库之电商数仓-- 3.2、电商数据仓库系统(DWS层)
目录七、数仓搭建-DWS层7.1 系统函数7.1.1 nvl函数7.1.2 日期处理函数7.1.3 复杂数据类型定义7.2 DWS层7.2.1 访客主题7.2.2 用户主题7.2.3 商品主题7.2.4 优惠券主题7.2.5 活动主题7.2.6 地区主题7.2.7 DWS层首日数据装载脚本7.2.8 DWS层每日数据装载脚本七、数仓搭建-DWS层7.1 系统函数7.1.1 nvl函数基本语法:NVL(表达式1,表达式2)如果表达式1为空值,NVL返回值为表达式2的值,否则返回表达式1的值。该函原创 2021-10-20 00:30:28 · 799 阅读 · 0 评论 -
数据仓库之电商数仓-- 3.1、电商数据仓库系统(ODS层、DIM层、DWD层)
目录一、数仓分层1.1 为什么要分层1.2 数据集市与数据仓库概念1.3 数仓命名规范1.3.1 表命名1.3.2 脚本命名1.3.3 表字段类型二、数仓理论2.1 范式理论2.1.1 范式概念2.1.2 函数依赖2.1.3 三范式区分2.2 关系建模与维度建模2.2.1 关系建模2.2.2 维度建模⭐️2.3 维度表和事实表⭐️2.3.1 维度表2.3.2 事实表2.4 维度模型分类2.5 数据仓库建模⭐️????2.5.1 ODS层2.5.2 DIM层和DWD层2.5.3 DWS层与DWT层2.5.4原创 2021-10-20 00:14:00 · 11173 阅读 · 8 评论 -
记录hive sql报错,return code1和return code2解决方法
执行hive sql语句的时候非常容易出现return code 1、return code 2、return code 3的情况,我就遇到了很多次,code3在某次意外中得以解决 但是引发了code2 和code1, 有些error莫名其妙的出现又莫名其妙的消失,可它还会带来更多的error。⚠️报错:[2021-10-19 19:45:38] [08S01][2] Error while processing statement: FAILED: Execution Error, return co原创 2021-10-19 22:39:01 · 16782 阅读 · 2 评论 -
记录一次maven依赖成功导入,但找不到相关包的IDEA臭bug
问题描述:如图,需要使用com.alibaba.fastjson.JSON,在pom.xml中已经导入相关依赖;但是在代码引用时却找不到这个包!!!!!捣鼓了很久无果,也按照网上的方法将本地仓库repository中相关依赖删掉重新下载无数次,依然没有任何用!!!啊啊啊啊 我宝贵的时间将在此刻逝去!我恨!然后看到一篇文章拯救了我==>解决方法?:将依赖中fastjson部分删掉reimport一次;再将fastjson部分添加回来reimport一次就奇奇怪怪莫名其妙地导包成功了!真是原创 2021-09-29 22:08:01 · 346 阅读 · 0 评论 -
记录Linux下彻底删除MySQL以及启动MySQL之后使用密码登录提示报ERROR 1045 (28000): Access denied for user ‘root‘@‘localhost
问题描述:在安装mysql前需先卸载自带的Mysql-libs,或者安装错误导致mysql不可用等等一系列原因要彻底删除Linux上现存的所有的mysql。解决方法:使用以下命令查询MySQL安装情况:[xiaobai@hadoop102 mysql]$ rpm -qa|grep -i mysql若是启动了MySQL,首先停止:[xiaobai@hadoop102 mysql]$ service mysql stop使用sudo rpm -ev mysql安装包 --nodep原创 2021-10-02 23:30:49 · 424 阅读 · 0 评论 -
大数据电商数仓--记录各种奇奇怪怪的issue
⚠️报错:hive on spark正常org.apache.hadoop.hive.ql.parse.SemanticException:Failed to get a spark session: org.apache.hadoop.hive.ql.metadata.HiveException: Failed to create Spark client for Spark session 65727339-603a-4fca-9df2-2f9d30e4b4a5⚠️报错:hive格式化报错Er原创 2021-10-14 19:47:32 · 1369 阅读 · 0 评论 -
记录hiveonspark:Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask
问题描述:在部署hive on spark,测试时报错,执行建表操作成功,但是插入insert出现以下错误:Failed to execute spark task, with exception ‘org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 2df0eb9a-15b4-4d81-aea1-24b12094bf44)’FAILED: Execution原创 2021-10-05 17:56:44 · 13402 阅读 · 12 评论 -
数据仓库之电商数仓-- 2、业务数据采集平台
目录1).2).3).4).5).6).7).8).9).原创 2021-10-04 18:00:59 · 848 阅读 · 0 评论 -
数据仓库之电商数仓-- 1、用户行为数据采集
加油干hhhhhh原创 2021-10-01 22:57:06 · 3768 阅读 · 3 评论