
数据仓库
吾我
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据仓库之数据一致性
数据仓库之数据一致性 不同阶段获取同样的指标,但是输出的数据不同,无法保持所有数据的一致性情况 栗子:注册用户数: 是在公司表中存在,且公司名称不为空的数据。 存在问题:在一月份注册数据10条,填写公司名称的有8条,此时统计注册公司数为: 月份 数量 1 8 在2月份的时候未填写公司名称的用户,开始填写公司名称。然后3月份的时候再次统计注册公司数: 月份 数量 1原创 2017-01-18 15:42:45 · 4435 阅读 · 1 评论 -
监控数据仓库环境
数据仓库监控指标 确定发生了什么增长,增长发生在什么地方,增长以什么速率发生 确定哪些数据正在被使用 估算最终用户得到的响应时间 确定谁在实际使用数据仓库 说明最终用户正在使用数据仓库中的多少数据 精确支出数据仓库何时被使用 监测数据仓库使用率水平 数据监控处理期间,可以建立的数据概要文件 数据仓库中所有表的目录 这些表的内容概要 数据仓库中表的增长情况概要 用于访问表的可用的索引目录 汇总表和汇总原创 2017-02-05 23:41:13 · 735 阅读 · 0 评论 -
数据仓库之系统开发周期(SDLC)
数据仓库SDLC 实现数据仓库 集成数据 检验偏差 针对数据编程 设计DSS系统 分析结果 理解需求 传统数据库SDLC 收集需求 分析 设计 编程 测试 集成 实现原创 2017-02-05 23:01:13 · 884 阅读 · 0 评论 -
1.数据仓库-概览
数据仓库目前总共有4个部分: 1)ETL 2)数据模型 3)调度 4)可视化 一:ETL 1)目前ETL 主要使用kettle、Python、sql。 Kettle 在目前仓库的作用,更多的是从源库将数据抽取到数据仓库当中。 Sql 主要是数据的聚合和清洗 Python 主要数据的清洗。 目前源数据库分为mongoDB 和 mysql, 所以在抽取这二者的数据库时...原创 2018-07-17 01:06:34 · 412 阅读 · 0 评论 -
2.数据仓库-kettle抽取Mysql数据
1) 打开Spoon,Spoon界面如下图 2)点击左上角图标 3)点击下拉菜单的【转换】 4)点击【核心对象】中的 【输入】 5)在展开的菜单中双击【表输出】 6)双击【表输出】 7)点击【新建】 8)配置源数据库信息 选择就相应的数据库 选择相应的连接方式 填写数据库相关信息 (填写源数据库的相关信息) 9)编写sql, 查询所需数据 ...原创 2018-07-17 01:10:25 · 4247 阅读 · 1 评论