
数据仓库
帅成一匹马
这个作者很懒,什么都没留下…
展开
-
DMP和CDP有什么区别
CDP(Customer Data Platform) 客户数据平台DMP(Data management platform)数据管理平台DSP (Demand-side-platform) 需求方平台CRM(Customer Relationship Management)客户关系管理原创 2021-07-29 19:36:37 · 819 阅读 · 0 评论 -
Hive数仓中存储格式ORC和Parquet,压缩方式LZO和Snappy
在数仓中,建议大家除了接口表(从其他数据库导入或者是最后要导出到其他数据库的表),其余表的存储格式与压缩格式保持一致。我们先来说一下目前Hive表主流的存储格式与压缩方式文件存储格式从Hive官网得知,Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile(文本格式),RCFile(行列式文件),SequenceFile(二进制序列化文件),AVRO,ORC(优化的行列式文件)和Parquet格式,而这其中我们目前使用最多的是TextFile,Se..转载 2021-03-08 10:51:16 · 11533 阅读 · 5 评论 -
maven中package和install的区别
这两个都是用来打包的。区别是package只是把包打在本项目target下。install会把包打在本项目target目录下,并安装到maven的本地仓库,其他maven项目也可以使用。原创 2021-02-14 11:18:42 · 1145 阅读 · 2 评论 -
数据同步策略
这两行代码表示数据已经在HashMap中存储完成。 而这也引发了一个问题,数据如何才能在HashMap中高效地存储?从这个问题出发,我们首先应该了解HashMap的底层数据结构。HashMap: 数组+链表[单向链表]+红黑树 JDK1.8...原创 2020-08-18 16:25:19 · 214 阅读 · 0 评论 -
异构数据的整合
每一个组织都存在众多的下属机构,每个下属机构都保存维护着自己相对独立的信息数据,而决策制定人员需要关心的是全局的、一致的、完整的信息。这种全局数据就需要从各个下属机构保存的异构数据中进行提取、清洗、转换,最后装载到一个统一标准的结构当中,这一过程称为异构数据的整合。异构数据顾名思义就是不同结构的数据,异构数据体现在五个层次上:1.计算机体系结构的异构;数据的物理存储来源于不同体系结构的计算机中,如:大型机、小型机、工作站、PC或嵌入式系统中。2.操作系统的异构;数据的存储来源于不同的操作系统,如:转载 2020-08-13 13:44:02 · 3122 阅读 · 0 评论 -
【漫谈数据仓库】 如何优雅地设计数据分层
一、文章主题本文对数据分层的讨论适合下面一些场景,超过该范围场景 or 数据仓库经验丰富的大神就不必浪费时间看了。数据建设刚起步,大部分的数据经过粗暴的数据接入后就直接对接业务。 数据建设发展到一定阶段,发现数据的使用杂乱无章,各种业务都是从原始数据直接计算而得。 各种重复计算,严重浪费了计算资源,需要优化性能。二、文章结构最初在做数据仓库的时候遇到了很多坑,由于自身资源有限,接触数据仓库的时候,感觉在互联网行业里面的数据仓库成功经验很少,网上很难找到实践性比较强的资料。而那几本经典书籍里转载 2020-08-07 11:56:17 · 1637 阅读 · 0 评论 -
事实表与维度表的区别与关系
一、文章主题本文主要讲解数据仓库的一个重要环节:如何设计数据分层!其它关于数据仓库的内容可参考之前的文章。本文对数据分层的讨论适合下面一些场景,超过该范围场景 or 数据仓库经验丰富的大神就不必浪费时间看了。数据建设刚起步,大部分的数据经过粗暴的数据接入后就直接对接业务。 数据建设发展到一定阶段,发现数据的使用杂乱无章,各种业务都是从原始数据直接计算而得。 各种重复计算,严重浪费了计算资源,需要优化性能。二、文章结构最初在做数据仓库的时候遇到了很多坑,由于自身资源有限,接触数据仓.转载 2020-08-04 17:12:47 · 924 阅读 · 0 评论 -
关系建模与维度建模
1.3 命名规范这点也是根据自家公司的规范来的。通常的做法是:是什么层,表名就以该层缩写开头。ods层: ods_表名dwd层:dwd_dim/fact_表名ods_原库名_原表名(_时间后缀day|week|month)–原始数据层 中间表:fact_主题_大意_mid_时间后缀(day|week|month) --快照层(清洗) fact_主题_大意_时间后缀(day|week|month) --快照层(清洗) attr_主题_大意_时间后缀(day|week|month) --宽表层原创 2020-08-03 17:19:48 · 1837 阅读 · 0 评论 -
数据仓库分层详解
2020.8.1原创 2020-08-02 12:14:17 · 470 阅读 · 0 评论 -
企业该选择什么架构搭建数据仓库(Oracle、Mpp、Hadoop三种数据库的区别)
目前搭建数据仓库的基本都是采用Oracle、mpp、hadoop这三种方案比较多,mpp数据库主要有teradata和greenplum。hadoop其实是一个体系,严格意义上不能说是数据仓库。主要从以下多个方面对此进行区别。1、架构:Oracle,Teradata,Greenplum,PostgresSQL都是关系型数据库。但是,Teradata,Greenplum,PostgresSQL主要强调是大规模并行处理,它们没有共享架构,也没有单点故障。Oracle数据库具有共享的架构。MPP数转载 2020-07-31 15:20:32 · 6764 阅读 · 0 评论 -
什么是BI?
自我总结:商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。BI就是商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务经营决策。简单来说,就是用BI工具,来代替excel处理海量数据。但BI在数据处理,数据分析,数据展示上的功能远远强于excel。转载:何为BI?这应该是刚刚.转载 2020-07-31 14:59:10 · 4555 阅读 · 1 评论 -
MPP(大规模并行处理)详解
1、 什么是MPP?MPP (Massively Parallel Processing),即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供数据库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。简单来说,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最转载 2020-07-30 15:58:17 · 5940 阅读 · 0 评论 -
OLTP与OLAP的区别
OLTP与OLAP的区别OLTP(on-line transaction processing)翻译为联机事务处理, OLAP(On-Line Analytical Processing)翻译为联机分析处理,从字面上来看OLTP是做事务处理,OLAP是做分析处理。从对数据库操作来看,OLTP主要是对数据进行增删改,OLAP是对数据进行查询。从应用上来看看OLTP与OLAP的区别。OLTP主要用来记录某类业务事件的发生,如购买行为,当行为产生后,系统会记录是谁在何时何地做了何事,这样的转载 2020-07-30 14:58:32 · 7923 阅读 · 0 评论