数据仓库
文章平均质量分 88
jialun0116
浙江工业大学
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据仓库工具箱第三章——零售业务
第三章——零售业务3.1 维度建模设计的4步过程3.1.1 选择业务过程3.1.2 声明粒度3.1.3 确定维度3.1.4 确定事实3.2 销售业务案例研究3.2.1 选择业务过程3.2.2 声明粒度3.2.3 确定维度3.2.4 确定事实3.3 维度表设计细节3.3.1 日期维度3.3.2 产品维度3.3.3 商店维度3.3.4 促销维度3.3.5 事务号码的退化维度3.4 实际的销售模式3.5 零售模式的扩展能力3.6 无事实的事实表3.7 维度与事实表键3.7.1 维度表代理键3.7.2 日期维度的智原创 2021-12-04 10:13:38 · 1466 阅读 · 0 评论 -
MOLAP——Kylin总结
Kylin总结1. OLAP分类1.1 MOLAP1.2 ROLAP1.3 HOLA2. 概述2.1 定义2.2 Kylin架构2.3 工作原理和过程2.4 特点2.4 和Druid 比较3. Cube 构建原理3.1 维度和度量3.2 Cube 和 Cuboid3.3 Cube 存储原理3.4 Cube构建方法3.4.1 逐层构建算法 layer3.4.2 快速构建算法(inmem)4. Cube构建优化4.1 检查问题Cube4.2 并发粒度优化4.3 使用聚合组(Aggregation group)原创 2021-12-01 23:04:11 · 4089 阅读 · 0 评论 -
数据仓库工具箱——数据仓库、商业智能及维度建模初步
第一章——数据仓库、商业智能及维度建模初步1.1 数据获取与数据分析的区别1.2 数据仓库与商业智能的目标1.3 维度建模简介1.3.1 星型模式和OLAP多维数据库1.3.2 用于度量的事实表1.3.3 用于描述环境的维度表1.3.4 星型模型中维度与事实的连接1.4 Kimball的DW/BI架构1.4.1 操作型源系统1.4.2 ETL系统1.4.3 用于支持商业智能决策的展现区1.4.4 商业智能应用1.4.5 餐厅举例描述Kimball框架1.5 其他DW/BI架构1.5.1 独立数据集市架构1.原创 2021-11-27 19:27:29 · 1581 阅读 · 1 评论 -
Sqoop安装和使用
Sqoop安装和使用Sqoop安装部署安装Sqoop前需要安装并启动Hadoop下载Sqoop链接http://mirrors.aliyun.com/apache/sqoop/1.4.7/将安装包覆之都对应的目录下解压安装tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0下载Mysql数据库中的驱动程序https://dev.mysql.com/downloads/connector/j/配置Mysql连接器 把复制到Sqoop的原创 2021-06-08 16:32:02 · 268 阅读 · 0 评论 -
HDFS与Hive实战 + 滴滴出行数据分析
HDFS与Hive实战 + 滴滴出行数据分析1.HDFS1.1 分布式文件系统1.2 HDFS的Shell命令行1.3 启动Hadoop集群1.4 大数据环境清单2.数据仓库2.1 数据仓库与数据库区别3.Hive3.1 终端连接Hive3.2 Hive操作命令3.3 Hive函数4. Zeppelin5.滴滴出行数据分析5.1 架构图5.2 日志数据集介绍5.3 构建数据仓库5.4 ods创建用户打车订单表5.5 创建分区5.6 上传到对应分区5.7 数据预处理5.8 订单分析5.8.1 app层建表5原创 2020-10-13 13:28:32 · 5097 阅读 · 2 评论 -
Hive架构,安装,使用,综合案例总结
Hive总结什么是HiveHive架构Hive和Hadoop关系Hive和关系型数据库区别Hive安装Hive 基本使用UDF自定义函数什么是Hive基于Hadoop 数据保存到HDFS原创 2020-10-09 16:27:11 · 389 阅读 · 0 评论 -
Hive 分区分桶 为什么分区分桶 怎么分区分桶
Hive 分区分桶为什么有分区怎么分区如何使用分区分区注意事项为什么要分桶?分桶的意义如何使用分桶分区分桶表为什么有分区随着系统运行时间增长,表的数据量越来越大,使用分区技术可以指定条件,缩小数据扫描的范围,避免hive全表扫描,提升查询效率可以将用户的整个表的数据 划分到多个子目录,怎么分区根据业务,通常按照年月日、地区等如何使用分区PARTITION BY(col_name data_type)hive的分区字段使用的是表外字段。而mysql使用的是表内字段。hive的分区名原创 2021-03-05 23:18:40 · 567 阅读 · 0 评论 -
什么是数据倾斜 数据倾斜的表现 发生数据倾斜的原因 如何解决数据倾斜
什么是数据倾斜数据倾斜的表现发生数据倾斜的原因如何解决数据倾斜原创 2021-03-04 21:48:33 · 11518 阅读 · 1 评论 -
数据仓库之分层 为什么分层 如何分层 和数据库的区别
数据仓库分层如何理解数仓为什么要设计数据分层通用的数据分层设计每层之间的界限又是什么?数据集市和数据仓库的区别数据库和数据仓库有什么区别?如何理解数仓数据仓库就是整合多个数据源的历史数据进行细粒度的、多维度的分析,帮助高层管理者或者业务分析员做出决策。数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。为什么要设计数据分层需要一套行之有效的数据组织和管理方法来让我们的数据体系更有序复杂问题简单化:将一个复杂的任务分解成多个步骤来完成,每一原创 2021-03-04 21:15:38 · 965 阅读 · 1 评论 -
数据仓库之建模 维度表 事实表 维度建模三种模式 如何维度建模缓慢变化的维度 建模体系
ER建模维度表和事实表维度建模三种模式如何维度建模什么是缓慢变化的维度最常见的三种数据仓库建模体系联机分析处理 OLAP元数据(Metadata)原创 2021-03-04 21:05:35 · 1517 阅读 · 1 评论
分享