
大数据
酷酷的糖先森
当你的才华还撑不起你的野心时,那就应该静下心来学习吧。
展开
-
Metadata操作手册
Metadata操作手册 1. Metadata基础知识1.1. 专业术语(元数据)1.1.1. 公共仓库数据模型公共数据仓库模型是一种规范标准,限定了数据仓库、商业智能、知识管理、端口(portal)技术之间交换的元数据的格式。Pentaho元数据模型符合公共数据仓库模型标准,需要更多信息,请参照CWM™ Resource Page1.1.2. 域(domain原创 2014-11-20 11:36:08 · 8303 阅读 · 1 评论 -
《分析服务从入门到精通读书笔记》第一章、其他可选表结构(6)
在业务数据库中,保证数据在所有应用程序中一致是极为重要的:如果在系统的某一部分修改了顾客的地址,这个修改后的地址立即在系统的所有部分显现出来,由于这种一致性的需要。倾向于将业务数据系统拆分成许多个表,这样任何值只在单个表中存储一次。任何时候需要某个值,包含这个值的表的连接就会被创建。保证一个值只存储在一个地方是规范化(normalization)进程的一个部分,这在业务系统数据库系统是十分重要的。原创 2014-11-24 14:45:08 · 933 阅读 · 0 评论 -
Kettle调度和监控
Kettle调度和监控的理论知识介绍,具体内容如下:1 调度 在这个指导文档中,主介绍两种类型Kettle任务和转换的调度方式。Ø 操作系统级别的调度器:对于ETL来说,调度不是独一无二的。这是操作系统能够提供标准调度的一般性需要,如UNIX衍生系统上的Cron以及Windows系统上的任务调度器。这些调度器能够拥戴调度Kettle命令行程序来运行任务和原创 2014-11-24 21:56:53 · 4792 阅读 · 1 评论 -
Kettle CDC(增量的实现)---基于快照实现
原理: 两个表格基于全表进行对比,产生标记位, (identical,new,changed,deleted),根据相应的标记位更新目标表1、整个转换如下图所示的元表和目标表使用的数据表结构如下:合并记录:过滤记录(使用数据同步: 高级选项卡:原创 2014-12-01 15:08:59 · 4100 阅读 · 1 评论 -
workbench创建cube示例,发布到mondrian服务器
用 Mondrian 建立 cube 示例1 准备数据分析一个访问日志的事实表,有三个维度,站点、 IP 地址、日期。事实表记录的数据源为 mysql 数据库1.1 创建数据库DROP DATABASE IF EXISTS `accessinfo`;CREATE DATABASE `accessinfo` /*!40100 DEFAULT CHARACTER SET lat原创 2014-11-21 11:26:23 · 1811 阅读 · 0 评论 -
Kettle 增量更新设计技巧
摘要:本文主要讨论一些在ETL中设计增量更新的方法和技巧。 ETL中增量更新是一个比较依赖与工具和设计方法的过程,Kettle中主要提供Insert / Update 步骤,Delete 步骤和Database Lookup 步骤来支持增量更新,增量更新的设计方法也是根据应用场景来选取的,虽然本文讨论的是Kettle的实现方式,但也许对其他工具也有一些帮助。本文不可能涵盖所原创 2014-11-24 21:53:26 · 3914 阅读 · 1 评论 -
Pentaho Cube权限设置
简单的分为两步:1、Pentaho中配置角色2、Cube中增加Role 配置角色: Cube中增加Role 附上官方文档配置中的Cube设计 9.1 Defining a roleRoles are defined by elements, which occur as direct childr原创 2014-12-23 17:27:32 · 2171 阅读 · 0 评论 -
Kettle的一些常见问题
摘要:本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案 1. Join 我得到A 数据流(不管是基于文件或数据库),A包含field1 , field2 , field3 字段,然后我还有一个B数据流,B包含field4 , field5 , field6 , 我现在想把它们 ‘加’ 起原创 2014-12-10 10:22:02 · 8353 阅读 · 0 评论 -
ORACLE BIEE安装教程
ORACLEBIEE安装教程1.1.OBIEE概述1.1.1.BIEE历史BIEE:OracleBusinessIntelligenceEnterpriseEditionOracle在05年底收购Siebel,取其前端开发工具SiebelAnalytics作为OracleBI的新平台。区别原Discoverer 起见,称为EnterpriseEdition,而原来的Discover原创 2014-12-29 11:27:53 · 5216 阅读 · 1 评论 -
Oracle BIEE (Business Intelligence) 11g 11.1.1.6.0 学习(3)创建一个简单的分析
步骤:1、如果BIEE安装在本机,直接登录http://localhost:9704/analytics/ 点击右上方导航菜单中的“新建-》分析”2、选择上节创建的RPD文件中的SCOTT主题区域3、这里会看到如下界面,左侧的树对应的是RPD文件中最左侧【表示】层中的模型-可以把它当成“表“来看,随便在“表“的字段名上双击,就可以添加到右侧的“所选列”区域,先参照下图,随便选几原创 2014-12-29 11:47:02 · 1858 阅读 · 0 评论 -
Oracle BIEE (Business Intelligence) 11g 11.1.1.6.0 学习(2)RPD资料档案库创建
BI创建(数据)分析、仪表盘、报表前,都需要对数据进行建模,在oracle biee里称为创建“资料档案库”-该文件后缀为RPD,所以一般也称为创建RPD文件。步骤:1、从windows开始菜单里,找到"BI 管理",如下图:2、点击工具栏第一个按钮“创建”一个(脱机/离线的)RPD文件,这里我们命名为Scott.rpd,同时注意记好密码,比如Admin123原创 2015-01-05 11:35:04 · 1319 阅读 · 0 评论 -
Oracle BIEE (Business Intelligence) 11g 11.1.1.6.0 学习(3)创建一个简单的分析
1、如果BIEE安装在本机,直接登录http://localhost:9704/analytics/ 点击右上方导航菜单中的“新建-》分析”2、选择上节创建的RPD文件中的SCOTT主题区域3、这里会看到如下界面,左侧的树对应的是RPD文件中最左侧【表示】层中的模型-可以把它当成“表“来看,随便在“表“的字段名上双击,就可以添加到右侧的“所选列”区域,先参照下图原创 2015-01-04 21:20:07 · 1072 阅读 · 0 评论 -
Oracle BIEE (Business Intelligence) 11g 11.1.1.6.0 学习(1)安装
ORACLE 出品的产品绝对都可以称得上装X神器:安装文件一定要大(小水管不让你下个三天三夜那都不叫oracle),系统内存必须得大、硬盘空间必须足够多、安装时间必须足够长、各种配置必须足够复杂、学习曲线必须足够陡峭...最重要的是 产品价格必须足够高!只卖贵的,不卖对的:)硬件条件:1、内存起码4G(少于这个数,就建议别玩了)2、如果在虚拟机里玩,硬盘建议至少留60G左右软件环境原创 2015-01-05 10:50:09 · 1768 阅读 · 0 评论 -
《分析服务从入门到精通读书笔记》第一章、代理键和渐变维度(5)
使用整数键值代表维度成员的一个原因是减少事实表的大小。同样,整数键允许将看似重复的成员存储在同一个维度表中。例如,在“顾客”维度中,可以有两个都叫Tom的顾客,但每个人都分配了唯一的“顾客”键,保证了维度表中成员键只出现一次。当然,由于数据仓库是通过提取业务系统的中数据产生的,上述两个Tom毫无疑问已经有了唯一的键值。其中一个可能是C12323A,另一个可能是F23454B。这些键称作为程原创 2014-11-24 14:44:42 · 936 阅读 · 0 评论 -
《分析服务从入门到精通读书笔记》第一章、维度数据仓库(4)
简介商业智能系统将维度数据仓库作为数据存取层。数据仓库存储在关系型数据库管理系统(RDBMS)中,打一个非常简单的比方,你可以将关系数据库简单地想作一系列的表格。每个表格有行和列,就行Excel电子表格一样。在维度数据仓库中,维度存储在维度表中,度量值被称作事实并存储于事实表(fact table)中。目的介绍数据仓库中的维度表和事实表的概念及逻辑模型内容一原创 2014-11-24 14:44:19 · 893 阅读 · 0 评论 -
《分析服务从入门到精通读书笔记》第一章、数据分析中的维度(3)
目的学习数据中的维度内容维度分析是Bi开发中很重要的概念,为了帮助理解维度,让我们回顾一些文提到的报表。看一下AWC公司月度销售量表重新显示如下:表1.8 AWC公司月度分析报表2011年1月2011年2月2011年3月2012年4月4142725 在这份原创 2014-11-24 14:43:49 · 977 阅读 · 0 评论 -
mondrian的schema配置文件demo
a.xml Xml代码 xml version="1.0" encoding="UTF-8"?> > Schema name="consume"> Cube name="consume"> Table name="FACT_TABLE" /> Dimension name="物品名称原创 2014-11-21 09:25:29 · 2372 阅读 · 3 评论 -
Kettle 增量更新设计技巧
有删除,有增加,有更新 首先你需要判断你是否在处理一个维表,如果是一个维表的话,那么这可能是一个SCD情况,可以使用Kettle的Dimension Lookup 步骤来解决这个问题,如果你要处理的是事实表,方法就可能有所不同,它们之间的主要区别是主键的判断方式不一样。事实表一般都数据量很大,需要先确定是否有变动的数据处在某一个明确的限定条件之下,比如时间上处在某个特定区间,或者某原创 2014-11-22 10:58:23 · 1449 阅读 · 0 评论 -
KETTLE如何实现实时的增量更新(两种方法)
要实现实时的增量更新共有两种方法:1.通过触发器。在要抽取的表上建立需要的触发器,一般要建立插入、修改、删除三个触发器,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入一个临时 表,抽取线程从临时表中抽取数据,临时表中抽取过的数据被标记或删除。触发器方式的优点是数据抽取的性能较高,缺点是要求业务表建立触发器,对业务系统有 一定的影响。2.通过时间戳。我原创 2014-11-27 11:21:59 · 27586 阅读 · 1 评论 -
kettle是进行数据库连接配置,出现数据库报错
在使用kettle是进行数据库连接配置,test总是不成功,报错如下:错误连接数据库 [foodmartconn] : org.pentaho.di.core.exception.KettleDatabaseException: Error occured while trying to connect to the databaseException while loadin原创 2014-11-27 21:28:57 · 19009 阅读 · 1 评论 -
BI开发之——ETL注意细节
ETL是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据到一起,为企业的决策提供分析原创 2014-11-24 14:40:47 · 2157 阅读 · 0 评论 -
BI开发之——多维立方体(Cube)
在Bi领域,cube是一个非常重要的概念,是多维立方体的简称,主要是用于支持联机分析应用(OLAP),为企业决策提供支持。Cube就像一个坐标系,每一个Dimension代表一个坐标系,要想得到一个一个点,就必须在每一个坐标轴上取得一个值,而这个点就是Cube中的Cell。如下图,在webcast上截了图:Cube是联机分析的关键。他们是一种多维结构,包含原始事实数据、聚合原创 2014-11-24 14:41:33 · 1939 阅读 · 0 评论 -
BI开发之——Mdx基础语法(2)
结合webcast中老师的讲解,现在把基础语法应用通过几个案例应用如下:一、维度的概念上图中一个维度(Dimension):Region改为度下有四个级别(Levels):country、province、city、county,他们属于层次集合(Hierarchy)通过维度和级别我们可以定义一个元素(Member)如:Levels(1).membe原创 2014-11-24 14:42:07 · 987 阅读 · 0 评论 -
《分析服务从入门到精通读书笔记》第一章、数据分析基础(1)
目的 学习一些商业智能的基本概念,如属性、层次结构和维度数据分析中的属性 假设如果你是AWC公司的总经理,希望了解公司的业绩,于是从业务人员那里得到一份报表 表1.1 AWC公司业绩 42 看到这个表格你根本不能得到任何信息,也就是说这个表是没有任何意义的,没有上下文的数字可能是数据,但不是信息原创 2014-11-24 14:43:00 · 919 阅读 · 0 评论 -
《分析服务从入门到精通读书笔记》第一章、数据分析层次结构(2)
目的通过简单的层次结构将产品和模型属性进行组织,并使用层次结构对详细数据分组和汇总的报表。本节了解如何建立层次架构内容通过第一节中的介绍,相关属性添加到各个级别,可以创建层次结构。基于“模型”层次结构的产品只有两级,但其实层次结构可以有很多个级别。例如、通过将月份属性作为最底层,同时添加由季度和年度属性组成的中间级(intermediate level),可以创建包含多个级原创 2014-11-24 14:43:27 · 954 阅读 · 0 评论 -
《分析服务从入门到精通读书笔记》第一章、多维OLAP概念篇(7)
目的 多维OLAP数据库处在数据存取层和表示层之间,它将关系性数据仓库中的数据转换成完全实现的维度模型,从而使分析报表的创建和数据的可视化更加快速和灵活。由于不同的OLAP数据库提供的特性和物理方式不同,我们将介绍分析服务如何实现维度模型。内容事实表中包含数值数据的列对应维度模型中的度量值。因此,每个事实表都是一组度量值,分析服务用一种称作度量值组(measure gro原创 2014-11-24 14:45:33 · 903 阅读 · 0 评论 -
BI开发之——Mdx基础语法
Mdx为MultiDimensional Expressions的缩写,多维表达式,是标准的OLAP查询语言。在多数OLAPServer都提供Mdx支持,如Microsoft Sql Server OLAP Services,SAS,Hyperion Essbase等。支持多维对象于数据定义和操作。Mdx很多方面与结构化查询语言(SQL)语法相似,但他不是SQL语言的扩展;事实上,Mdx所提供的原创 2014-11-24 11:17:49 · 2340 阅读 · 0 评论 -
BI开发概念之——数据仓库与联机分析处理,数据挖掘
从发展计算机技术以来,对信息管理技术的不断提出了新的需求,推动数据库技术飞速发展,另一方面,随着数据处理能力的逐步提高、数据分析工具和技术的不断成熟,人们发现对数据库中的数据进行再加工,形成一个综合的、面向分析的环境,能更好的支持决策分析,发挥数据的更大价值。从而逐渐形成了数据仓库(Data warehouse, DW)的的思想,由此数据仓库技术营运而生。 数据仓库就是面向主题的(s原创 2014-11-24 14:40:20 · 1169 阅读 · 0 评论 -
mac下安装Mysql5.7.13遇到默认密码的大坑
安装的过程很简单,就直接到官方下mysql dmg,一路下一步就可以装完.. 但是带来的问题是,默认密码不为空… mysql -uroot -p 登陆不进去… 直接使用mysqladmin改密码也提示错误.一般在centos下安装Mysql 5.7版本后,密码应该是放在 ~/.mysql_secret文件里,但是Mac呢 ?各翻遍了所有目录都没找到… 一顿狂Google之后,发现不少老外也在纠结这原创 2016-06-25 00:33:27 · 8319 阅读 · 1 评论