- 博客(35)
- 收藏
- 关注
原创 数据仓库项目启动与管理
迭代开发周期: 数据仓库环境的开发过程没有尽头 需要更多沟通来保证人员的同步 需要对问题/变化进行跟踪 确保今后系统功能的提升 需要详细的项目文档来支持团队各项工作的展开。不可避免的数据问题: 数据项目很容易受到各种未知数据问题的困扰 这会严重损害进行精心制定的项目计划 需要再设计各个候选数据源的数据管道之前 尽可能早地进行数据探查。指定项目计划 数据仓库项目需要一份详细的综合的项目计划 应当从项目任务和项目参加人员两个方面来考虑复杂性。数据仓库项目具有不断发展的特性 这就需要对项目文档进行整理。
2025-03-30 15:13:48
284
原创 维度建模过程
意味着精确定义某个事实表每一行表示什么.粒度传递的是事实表度量的细节级别.粒度由获取业务过程事件的操作型系统的物理实现确定.第一个DW/BI项目应该将注意力放在最为关键的,最易实现的用户业务过程.包括数据可用性与质量,以及组织的准备工作等.业务过程通常是由某个操作系统支撑,建立或获取关键性能度量,通常由输入激活,产生输出度量,由组织完成的微观活动.声明粒度是不容忽视的关键步骤。以最低的原子粒度处理数据.
2024-07-15 08:56:57
223
原创 维度建模技术汇总
Kimball维度建模技术基本概念收集业务需求与数据实现:开始维度建模工作前,项目组需要理解业务需求,以及作为基础的源数据实际情况,通过与业务代表交流来发现需求,用于理解他们基于关键性能指标、竞争性商业问题、决策制定过程、支持分析需求的目标。协作维度建模研讨:维度模型应该由主题专家与企业数据管理代表设计而成。工作由数据建模者负责,但模型应该通过与业务代表开展一系列高级别交互讨论获得。维度模型不应该由那些不懂业务以及业务需求的人来设计,协作是成功的关键。4步骤维度设计过程:选择业务过程声明粒度
2024-07-09 18:22:18
845
原创 数据仓库——聚集
在对性能不断探索的过程中,聚集是最数据处理工具。通过仔细规划和集成,聚集将队数据仓库性能产生巨大影响。无需针对特定的软件和硬件进行大量的投资,使用在数据仓库中已经存在的工具即可。与导出模式类似,聚集是一种补充性的数据结构,用来加快工作进度。聚集主要是通过来获得改进性能的效果。但是,聚集发挥作用,需要为每个查询选择正确的聚集,还需要为聚集填充数据并确保能够与基本数据模式保持同步。理想的聚集对数仓用户是不可见的,每当需要时才默默地提供支持。
2024-03-31 17:59:09
1305
原创 数据仓库——特殊类型的星型模式
核心星型模式包括所有公共属性且支持跨所有类型的分析,特定类型的自定义星型模式包括所有的核心属性以及任何特定类型的属性。为了成功实现核心/自定义设计,需要使用核心维度和每个特定类型的自定义维度之间的公共属性具有一致性。有时存在自定义属性却没有自定义事实的情况,但是自定义事实表仍然可以避免分析意外。物理实现可以采用独立且不同的核心和自定义表的方式。或者使用数据库视图来实现。异构维度属性能通过设计多个维度表来处理,核心维度包含所有公共属性;自定义维度包含核心属性和特定类型的属性。
2024-03-31 12:42:23
1286
原创 数据仓库——事实表
累积快照事实表用来跟踪通过一系列处理步骤的个体项的进展情况,用于研究多数过程中里程碑或者事件的经过时间。事实表快照在确定的时间间隔中对问题的度量进行抽样,这样就可以容易地研究问题的度量值,而不需要聚集长期的事务历史。状态度量,通常可以从事务历史中构造出来,然而如果事务历史延伸到很远的过去,或者必须计算许多事务的状态,监控状态将是低效的办法。间隔时间的研究要求关联多个状态,在事务模型中,每个状态变化都将记录在事实表的不同行中。: 度量一系列事务的效果称为状态度量,当状态度量很重要时,事务事实表是无效率的。
2024-03-28 22:22:04
1765
原创 数据仓库——雪花模式以及层次递归
通常在维度中确定多重层次结构,每一个层次结构包含维度的所有属性,但将属性组织起来的方式不同。查询事实时,通过在层级的下一个级别中添加一个维度属性来完成向下钻取,上钻即通过去除当前层次结构级别的属性而开展的。可以完全不用借助层次结构来添加维度细节信息的两个特性使之成为可能,首先,属性的基数或者给定的实例值的数量,不要确定它属于那个层次结构,其次在多个双亲中能找到一些实例值。重复的属性被放置到一个单独的支架表中,该表有自己的代理键,在原始的维度中,迁移属性被替换为引用支架表的一个或多个外键。
2024-03-23 23:20:54
1603
原创 数据仓库——大维度问题
由于数据量很大,很多包含大维度的数据仓库功能可能会很慢,效率很低,需要设计有效的方法,原则正确索引或者采用其他优化技术处理以下问题。,历史数据库视图,创建不同的维度表视图来表示每个角色,采用适当的外键列将事实表与每个视图连接。连接选择,对于表本身来说不是问题,然而这可能导致混淆,并且可能为自动建立查询的商业智能工具带来问题。,虽然该方法解决了数据管理员提供的问题,但也带来的一系列的问题。大维度通常拥有多层次的结构,不同的业务需要的不同属性可能不同。业务过程的度量可以包含维度的多个实例。
2024-03-23 23:19:49
1064
1
原创 数据仓库——维度表更新
进入维度表中的信息,在操作系统中仍有可能发生改变,在维度设计方案时,确定数据源的变化情况在维度表中如何表示非常重要,这一想想称为缓慢变化的维度,简称缓慢变化维。几乎所有的对维度表的修改都属于前两类修改,第一类是最常见的,第二类修改保留了历史数据。分析型需求偶尔需要保护其原始状态,对修改的属性,什么事情也不做。当需要支持对维度值特定时间分析,与事实无关的时采用时间戳维度。当需求冲突,需要采用多种响应方式时,采用混合技术。
2024-03-23 23:18:52
1008
原创 数据仓库——维度表一致性
一致性矩阵可以作为实现蓝图,指明了所有事实表连接的位置,这允许独立地实现每一个事实表,并能可信地与那些已经存在的事实表协同工作。更好的描述一致性维度方式是采用矩阵图,列代表核心一致性维度,行代表不同的事实表,可通过在适当的交叉点放置检查标志来阐明一致性。一致性维度是维度建模的关键,缺乏一致性,就难以对数据仓库开展横向钻取分析,将失去协同增效的可能,并且将会形成信息孤岛。另一方面,如果在开发一致性维度集之前实现增量开发的方法,这样的框架将不可避免地陷入不一致的陷阱。
2024-03-23 23:18:09
1485
原创 数据仓库——维度表特性
例如考虑是否具有自然的亲和性,或者在不同环境中是否有关系,或者那些趋向于共享稳定关系的属性可能被储存在一起,或者那些仅存在事件、事务或条件等情况下相关的属性,可以将他们归入不同的事实表中,存在疑惑不定时,可以考虑不同设计方法的可浏览性。当他们的关系由事务或活动来决定,并且存在于不同的环境中,应该将他们放置在不同的维度表中。维度属性分组到维度中,用于表示引用信息的主要分类。与实体关系模型不同,维度模型不能揭示相互关联的属性之间的关系,上下文关系易于传递给事实表,而天然存在的相关性则由维度表中共存的属性表示。
2024-03-23 23:16:57
1565
原创 数据仓库——OLAP
联机分析处理OLAP是一种软件技术,它使分析员,经理,主管人员,能够通过快速的,一致的和交互的访问来获取并理解各种可能信息视图的数据,这些信息由原始数据转换而成,用来反映一个企业实际的维度。
2024-03-15 13:37:38
444
原创 数据仓库--数据分析
指从一个汇总数据开始麻将该汇总数据分解成一组更细致的汇总数据。通过获取汇总数据下的细节数据,管理者可以知道究竟正在发生什么事,特别是汇总数据在哪里出现异常。汇总数据可能处于也可能不处于即将进行分析所需要的合适的粒度级,为了进行DSS处理,需要在数据的细节程度和对总数据之间进行权衡。汇总数据是未来分析的基础,并且由于它的存在,不必进行重复分析,应该将汇总数据作为DSS环境的主要部分。汇总数据永远是计算过程的结果,任何情况下都不存在孤立的汇总数据。DSS分析员必须取得汇总数据、理解用来产生汇总数据的过程。
2024-03-10 18:03:49
546
1
原创 数据仓库--分布式
局部系统和全局数据的需求之间映射的定义是集中式的,而不是局部的。全局数据仓库的范围是在企业级集成的业务,包含历史数据以及必须在企业级继承的信息,全局数据可能来源于操作型系统,但通常来源于局部数据仓库。就数据层来说,全局数据仓库并不符合典型的数据仓库结构,细节数据存在于分支机构,轻度综合数据存在于集中全局层。局部数据仓库包含的是在局部站点上的历史的和集成的数据,局部数据仓库间的数据或数据结构不需要协调一致。数据导入到全局数据仓库时有一个简单的数据转换。原则上局部数据应局部使用,全局数据应全局使用。
2024-03-10 14:09:06
635
1
原创 数据仓库--粒度与技术
数据仓库中数据的恰当粒度是数据开发者需要面对的一个重要的问题,粒度确定得合理,设计和实现中其余方面就可以进行得非常顺畅。
2024-03-09 22:52:14
394
1
原创 数据仓库——决策支持型系统
分析型环境又称决策支持系统(Decision-making Support System,DDS)信息型和决策支持型系统处理核心–数据仓库。
2024-03-07 07:28:23
987
1
原创 Java枚举类型
*** public 限定词* enum 枚举关键字* Color 枚举类型名称/*** WHITE, BLACK, RED 枚举类型常量 用逗号分割* 都拥有一个名称与一个值* 通常都是大写字母命名 多个单词之间使用下划线分割。
2023-09-16 16:46:04
60
1
原创 Java设计模式学习笔记
软件实体应当对扩展开放对修改关闭(Software entities should be open to extensions and closed to modifications)
2023-09-13 21:55:22
130
1
原创 JAVA FTP CLIENT READ TIME OUT 异常
中间经过的网络设备过多 setControlKeepAliveReplyTimeout 从5000改成10000。
2023-08-10 17:55:54
447
1
原创 git遇到的问题
git遇到的问题提交了大文件到本地仓库 没办法提交到远程复制下本地的文件把本地文件 回滚到远程仓库的版本把副本改名提交上去搞定
2023-06-28 20:48:19
48
1
原创 JAVA多线程
实现方式实现方式可扩展性返回值继承Thread类简单不强无实现Runnable接口简单较强无实现Callable接口 并创建FutureTask对象接收其返回值较麻烦较强可以获取返回值实现方式实现方式可扩展性返回值继承Thread类简单不强无实现Runnable接口简单较强无实现Callable接口 并创建FutureTask对象接收其返回值较麻烦较强可以获取返回值修饰说明作用范围Method所有线程执行此方法 都需要先获取锁 才能执行。
2023-06-12 01:08:36
99
原创 2.flink整体构成
flink整体构成 作业管理器(JobManager):管理者 负责管理调度 不考虑高可用 只能有一个 任务管理器(TaskManager):工作者 负责执行任务处理数据 可以有一个或者多个 作业管理器(JobManager)任务管理和调度的核心 控制应用执行的主进程组件JobMaster 作用是处理单独的作业(Job) 每个Job都有一个自己独立的JobMaster JobMaster接收需要执行的应用1JobMaster将作业图(JobGraph)
2022-04-05 17:33:52
2546
原创 1.Flink简介以及应用场景
简介是一个框架和分布式处理引擎 用于对有界和无界数据流进行状态计算 基于流的世界观 一切都是由流组成的 离线数据是有界的流 实时数据是一个没有界限的流 这就是所谓的有界流和无界流安装tar -zxvf flink-1.11.2-bin-scala_2.12.tgz -C /opt/module/ cd /opt/module/flink-1.11.2启动 bin/start-cluster.shFlink流处理apienvironmentsourcetransformap
2022-04-05 17:32:39
2716
数据仓库基本概念-思维导图
2024-03-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人