- 博客(10)
- 收藏
- 关注
原创 离线大数据开发实战(读书笔记)-- 第六章 hadoop数据仓库架构设计
ODS:operation data source源头操作系统的数据表,也叫准备区。储存着历史的增量或者全量数据DW:data warehoursDWD:明细层,最细粒度的事实表和维度表DWS:汇总层,汇总数据,减少重复计算应用层(ADS):应用集市,包含部门或者面向某一个主题的明细层和汇总层数据。hadoop数据仓库规范设计1.命名规范表名:一层一层来字段名:有意义便于理解。数量型字段以cnt结尾,数值型字段以amt结尾。2.开发规范3.流程规范FutureRetailer数据.
2022-03-03 22:59:52
753
原创 离线大数据开发实战(读书笔记)-- 第五章 维度建模技术
度量和环境销售额、库存、访问量、熟客量就是度量。缺乏上 下文和环境来谈度量是没有意义的。比如销售额是3000元,这一单独的数字并不能带来任何帮助。度量和环境是构成维度建模的基础。所有维度建模正是通过对度量和及其上下文和环境的详细设计来实现的。事实常以数值的形式出现,并且一般被大量文本形式的上下文包围着。这些文本形式的上下文描述了实时的5个W。(when where who what why)信息。通常可以被直观的分割为独立的逻辑块。每个独立的逻辑块即为一个维度。事实表如上,下面2个数值就是度量(
2022-03-03 22:57:59
1099
原创 离线大数据开发实战(读书笔记)-- 第四章 Hive优化实践
实际项目来说,join相关优化占了Hive优化的大部分内容数据倾斜:数据没有平均的分布到每个节点。往往是数据本身的原因或者分布算法的原因。数据本身原因:虽然数据量一样但是有的数据不好算。优化不良习惯引起的在实际 Hive SQL 开发的过程中, Hive SQL 性能的问题上实际只有一小部分和数据倾斜相关 很多时候, Hive SQL 运行得慢是由开发人员对于使用的数据了解不够以及一些不良的使用习惯引起的1.数据来源找已经汇总好的、2.需要多少分区就扫描多少分区。要一周就够就不要拿一年的3.不
2022-03-03 22:52:41
1123
原创 离线大数据开发实战(读书笔记)-- 第三章 Hive原理实践
Hive是SQL的抽象,高延迟。由Facebook研发Hive基本架构Hive通过CLI/JDBC/ODBC或者HWI接受相关的HiveSQL查询,并通过Driver组件进行编译,分析优化最后变成可执行的MapReduce。Hive主要组件执行过程如下:Hive SQL关键概念内部表(managed table):Hive管理的表,包含实际的物理意义。删除数据也没了。CREATE TABLE mu_managed_table(coll STRING);LOAD DATA INPATH’/us
2022-03-03 22:49:49
1648
原创 离线大数据开发实战(读书笔记)-- 第二章 Hadoop原理实践
离线数据平台通常和 Hadoop Hive 、数据仓库、 ETL 、维度建模、 数据公共层等联系在一起。离线数据平台的另一个关键技术是数据的建模,目前采用最为广泛也最为大家认同的是维度建模技术。数据仓库技术OLTP:是 Online Transaction ~rocessing ,顾名思义, OLTP 数据库主要用来进行事务处理,比如新增一个订单、修改一个订单、查询一个订单和作废一个订单等 OLTP 数据库最核心的需求是单条记录的高效快速处理,索引技术、分库分表等最根本的诉求就是解决此问题。问题是太.
2022-03-03 22:37:44
592
原创 presto开窗函数运用:取平均值时去掉最大值和最小值
用presto取均值时,排除最大和最小的写法 。例如查询每个班级学生成绩的均值select class ,avg(score) score_avg from ( select class ,student ,score ,row_number() over(partition by class order by score desc ) rank_desc ,row_number() over(partition by class order by score ) ran
2021-02-02 23:48:06
2753
1
原创 离线大数据开发实战(读书笔记)-- 第一章 概述
第一章 概述数据分为以下几类:1.结构化数据 :数据库中的数据2.半结构化数据:日志文件、XML/JSON3.非结构化数据:图像、声音数据储存处理1.离线处理:按天进行数据处理,每天凌晨等数据采集和同步的数据到位后,相关的数据处理任务会被按照预先谁的ETL(抽取、转换、加载)逻辑以及ETL任务之间的拓扑关系一次调用。最终数据会被写入离线数据仓库中。离线数据仓库通常是按照某一种建模思想(...
2020-01-12 21:16:46
902
原创 hive下的文本解析(持续更新)
url解析url结构URL:统一资源定位符 (Uniform Resource Locator, URL)。完整的URL由这几个部分构成:scheme://host:port/path?query#hash:scheme:通信协议,常用的有http、https、ftp、mailto等。host:主机域名或IP地址。port:端口号,可选。省略时使用协议的默认端口,如http默认端口为8...
2020-01-12 20:47:15
572
原创 with as 和临时表的使用
with as 和临时表的使用with as 和建临时表的区别with as (公共表达式CTE)临时表使用技巧with as 和建临时表的区别with as (公共表达式CTE)当我们书写一些比较结构复杂,用的表也很多的sql时,可以用with as。with as 是子查询部分,并不是真正的临时表,查询结果保存在内存中。定义一个sql片段,该片段在整个sql都可以被利用,可以提高代码的...
2020-01-12 16:53:31
22876
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人