
数仓项目
猛肝自然强
这个作者很懒,什么都没留下…
展开
-
大数据相关常用端口号整理
hadoop默认端口号 hadoop2.x hadoop3.x访问HDFS端口 50070 9870访问MR执行情况端口 8088 8088 历史服务器 19888 19888 客户端访问集群端口 9000 8020zookeeper默认端口号代码访问client的端口号: 2181leader和flower通信的端口号: 2888选举leader时通信的端口号: 3888其他服务与监控中心通信端口: 7070...原创 2020-09-09 20:45:37 · 1148 阅读 · 0 评论 -
hive数仓中数据的终点站-可视化报表和即席查询
可视化报表-SupersetApache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图标展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。1.0Superset安装方法Superset是由Python语言编写的Web应用,要求Python3.6的环境。1.1 安装Minicondaconda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同Python版本的软件包及其依赖,并能够在不同的Python环境之间切换,Anaconda包括C原创 2020-10-24 08:14:08 · 1399 阅读 · 0 评论 -
hive在数仓ODS层到DWD层建模方法
数仓建模的原因:当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。二者的主要区别对比如下表所示。创建数仓主要完成OLAP的业务需求,将原始数据导入到ODS层之后,就需要将原原创 2020-10-22 15:57:53 · 5302 阅读 · 0 评论 -
hive在数仓项目中的表格设计
数仓基本机构如下:在对数仓的分层表格设计中,根据不同的业务需求会使用到不同表格写入方式:ODS 层1 特殊表(只导入一次)有些表格的内容通常不会进行进行变化,在数仓中采用特殊表的模式,只在数仓建造初始化的时候导入一次,之后不再进行内容导入:例如省份表和地区表 省份表(特殊)drop table if exists ods_base_province;create external table ods_base_province ( `id` bigint COMMENT '编号原创 2020-10-22 10:30:00 · 794 阅读 · 0 评论