- 博客(50)
- 收藏
- 关注

原创 大数据环境下数据仓库的实践(五)—— ETL之落地层同步
准确地来说,在大数据里很多时候是ELTL,但是我们仍然保留历史的称呼用ETL来描述从抽数到提供应用之间的所有数据处理步骤。ETL的第一步总是避不开从业务源系统抽取数据到落地层(Staging)。实践中,大部分时候大厂都用ODS来命名,歪果仁通常称为STG,这里只是叫法不同,作用是一样的——一次读取以缓冲对源系统数据的访问。EL工具市面上比较常用的是sqoop和dataX,也有通过binlog消...
2019-07-02 11:43:47
955

原创 大数据环境下数据仓库的实践(四)—— 主题域的划分及任务和工作流的组织方式
主题域的划分由于数据仓库跨部门,所以必然存在某些数据关系密切,而某些数据相互比较独立。于是相关的一组数据往往被划成一个个主题域。主题域是为了更好地组织数据仓库。我们以一个普通的买卖为例,这里的主题域可以划分为:卖家(商家)、买家(客户)、商品、交易等。每个域下面还可以根据业务的复杂程度设置自己的子域,例如交易域下还可以设置正向交易、逆向交易(退款)。主题域和维度的迷惑主题域和维度经常容易被...
2019-06-07 11:10:51
4484

原创 大数据环境下数据仓库的实践(三)—— 数据仓库的组成部分
数据仓库从全局来看会涉及到四大块:业务源系统、ETL系统、数据应用层、数据消费层。业务源系统数据仓库中数据的来源是各个业务源系统。严格说来业务源系统不属于数据仓库的范畴。但是如果业务系统模型设计不好,对后续的数据处理将极为不利,甚至会极大的增加数据仓库建设的投入成本。现状往往是业务系统的设计人员水平参差不齐,业务系统设计千奇百怪,甚至缺乏第三范式的考量,缺乏基本的审计字段(cre...
2019-05-26 19:16:38
1090

原创 大数据环境下数据仓库的实践(二)—— Hadoop基础
Hadoop生态链已经成为如今大数据实际意义上的实现。因此在Hadoop生态下建设数据仓库需要了解一些Hadoop的基本原理。这会对我们将来为什么这么设计数据仓库提供一些解答。Hadoop最基础的两块是它的分布式文件存储(HDFS)和MapReduce计算模型(MR)。通过大数据界的"Hello World"——统计一篇文章中每个单词出现的次数,这样一个案例来跟踪一下Hadoop是怎么做的。...
2019-05-24 23:41:52
415

原创 大数据环境下数据仓库的实践(一)—— 绪论
关于数据仓库,在维基百科中将它定义为用于报表和数据分析的系统,是商务智能(Business Intelligence)的核心部分。在数据仓库诞生之初,它只被设计成针对管理层所需要的决策支持系统,并不对业务方(这里指各应用系统)提供数据支持。然而在大数据环境的背景下,当Hadoop生态已然成为大数据现实意义上的载体,以Hive为基础的数据仓库已经不能仅仅只提供决策支持的需求了——它需要同时满足部...
2019-05-24 06:32:16
348
原创 经济学词汇笔记
边际效用——物以稀为贵:指一个新增单位的物品或服务所带来的主观满足。人们在消费一种商品时,每增加一个单位,增加的效用就递减,最后一个消费单位的效用最小。
2020-09-17 13:12:36
267
原创 Hive SQL中不同数据类型比较时隐性转换的坑
不同数据类型比较先来看一段SQL。表dean_test中字段a的类型是整型INT,字段b的类型是字符串/字符型STRING/VARCHAR。select * from dean_test where a = b这就是不同数据类型比较。现实中发现不少数据类型不匹配的比较能很兼容地进行隐性类型转换。但是,隐性类型转换的一个大前提应该是不能丢失精度!换句话说,显性转换和隐性转换的结果必须是一致...
2019-07-11 16:57:30
2854
原创 AttributeError: module 'sklearn' has no attribute 'linear_model'
AttributeError: module ‘sklearn’ has no attribute ‘linear_model’将import sklearn改成from sklearn.linear_model import LinearRegression同时,后续代码由sklearn.linear_model.LinearRegression()调整为LinearReg...
2019-06-24 17:54:47
2933
原创 Mac安装之Web
安装工具nvm安装nvm(node version manager)是一个node版本管理工具,可以在本地同时维护多份node环境。直接安装:cURLcurl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.34.0/install.sh | bash或者 wgetwget -qO- https://raw.githubuser...
2019-06-10 17:46:24
230
原创 Kylin权威指南没说清楚的事情——读《Kylin权威指南》后的一些思考和笔记
1. 引言读《Kylin权威指南》后的一些思考和笔记。2. 关于维度2.1 维度表太大怎么办?维度表会被加载到内存里,但前提是小于300M。互联网公司往往会有大维表,比如用户表,这时候正常构建会失败。对于这种类型的维表,早期有建议在Hive中事先把维度做到事实表里,现在只需要在Model的Dimension里把“Skip snapshot for this lookup ta...
2019-05-20 23:34:51
613
原创 关于参数theta为什么和边界boundary正相交
先上个Ng老师的图。这里绿线表示boundary,蓝色箭头theta为什么跟绿线是正相交呢?我们从几何图形上来解释一下。从图中我们知道theta'*X > 0的时候,y = 1 是上图红色的叉叉theta'*X < 0的时候,y = 0 是上图蓝色的圈圈那么theta'*X在什么时候是正的,什么时候是负的呢?theta'*X在几何意义上可以理解为向量X在向量theta'上的投影p*||...
2018-05-15 13:14:28
3724
5
原创 java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream
spark启动报错
2017-01-06 11:03:44
17677
原创 内存寻址 笔记
logical address逻辑地址(segment + offset) -> [segment unit分段单元] -> virtual address虚拟地址 -> [paging unit分页单元] -> physical address物理地址memory arbiter内存仲裁器分段寻址方式分页寻址方式控制寄存器高速缓存
2016-12-11 10:41:27
456
原创 用Workbench迁移MySQL小数据库
我之前用阿里云的RDS服务器,到期了,不打算续了。所以迁移到自己安装的MySQL。阿里官方的RDS备份文件恢复到自建数据库又要安装新的解压工具,又要上传备份到服务器,感觉很是麻烦。我平常用MySQL的Workbench客户端,我们就来看一下有没有合适的傻瓜式方法:一开始我看到Server菜单下的Data Export和Data Import。导出没问题,导入的时候却会告诉你
2016-05-31 21:49:23
3233
原创 Informatica Notes
InstallationThe domain configuration and the Model repository cannot be in the same database schema.
2012-04-23 14:29:48
491
原创 informatica里关于通过repository数据库直接进行检查的语句
用来检查批量某个参数缺省值,长度等属性的脚本:select t2.subj_name,t1.mapping_name,t0.pv_name,t0.pv_default from opb_map_parmvar t0,opb_mapping t1,opb_subject t2 WH
2011-07-13 14:07:07
1446
原创 Informatica Best Practeces for ICC
ICC的意思我总是记不住。老外好像蛮喜欢搞这些概念性的东西,叫的名字一个比一个好听。我只谈论一下我对ICC粗浅的理解。 所谓整合的东西,在这里就是提供了一些标准。包括命名规则等等。 mapping里其实是不提倡override任何东西的。尤其是sql override这种其实很好用的尴尬功能。因为写sql真的很方便,但sql是基于特定数据库的。出于将来对不同数据库迁
2011-06-28 16:49:00
862
转载 Steve Jobs' Outstanding Stanford Commencement Speech from 2005
Steve Jobs' Outstanding Stanford Commencement Speech from 2005
2011-02-24 15:32:00
835
原创 记录被另一个用户锁
<br />1. 查询被锁进程:<br />SELECT A.OWNER, <br /> A.OBJECT_NAME, <br /> B.XIDUSN, <br /> B.XIDSLOT, <br /> B.XIDSQN, <br /> B.SESSION_ID,
2011-01-18 15:21:00
440
原创 卸载SQL Server 2008,不断要求重启电脑
<br />在添加删除程序里卸载SQL Server 2008时,无论是否刚重新启动过,都要求重启“a computer restart is required sql server” 以至于无法继续。<br />Solution: delete all values under "HKEY_LOCAL_MACHINE/SYSTEM/CurrentControlSet/Control/Session Manager/PendingFileRenameOperations",然后re-run一下,restar
2010-12-16 16:20:00
6113
原创 维度建模技巧总结
全局架构上:一套全局的metadata管理框架。ODS的考量可以容后,架构在数据源系统之后或者数据仓库内的一个特殊组成部分。 Dimension Table(占10%空间):主键使用代理键(surrogate key)。非范式化,扁平化层级关系。存储可
2010-12-08 16:06:00
1335
原创 数据仓库工具箱——维度建模(Dimensional Modeling)摘要(一)
文章本身就是《数据仓库工具箱——维度建模的完全指南(第二版)》(The Data Warehouse Toolkit. Second Edition)的摘要,只希望能尽量简洁和易读……第一部分主要介绍数据仓库的框架和几个基本概念。
2010-11-28 10:21:00
3099
原创 Informatica Bug
<br />使用工具:PowerCenter Designer<br />版本:Designer Version 8.6.1 HotFix10 01 24 412 (R179 D88)<br />平台:Citrix Web Interface<br />Bug:<br />1、Mappings->Parameters and Variables...和Union [Group Ports]里Port Name粘贴未双击时,显示已改变,但偶尔失效。<br />2、Union [Group Ports]连线后顺
2010-11-25 16:20:00
793
转载 牛逼顿的一生
3月28号是牛顿的忌日,但是知道的人很少,我们毕竟更关心沈殿霞和张国荣。其实牛顿老师在科学圈里曾经很有权势,被女王封了爵位成了贵族,人称牛爵爷,官至皇家造币局局长兼皇家学会会长。如果阿尔伯特没有辞了以色列总统的话和他有一拼。 说他有权势并不仅是官大,主要是贡献大。如果17世纪就有诺贝尔奖的话,牛顿老师至少能连续垄断4届物理学奖(分光计;力学体系的构建;反射望远镜;万有引力),同时为
2010-10-22 15:17:00
651
转载 比尔盖茨和乔布斯的35年恩怨情仇
三十多年前,那还只是一小群几乎同龄的理科书呆子的玩具,而史蒂夫·乔布斯和比尔·盖茨便是这个世界里的两位海盗... 2010年,史蒂夫·乔布斯和比尔·盖茨都55岁了。 1975年,全球第一台个人计算机Altair横空出世,到现在,仅仅才过去了35年。仿佛就在一瞬间,个人电脑已经突变为年销量高达三亿个、年产值超过2000亿美元的庞大产业。很难想象,就在三十多年前,那还只是一小群几乎同龄的理科书呆子的玩具,而史蒂夫·乔布斯和比尔·盖茨便是这个世界里的两位海盗。 现如今,史蒂夫·乔布斯已成为一代人的文化偶
2010-10-22 15:14:00
1806
转载 "CMN_1552: Error accessing lookup cache." when running a PowerCenter session with large lookup tables
Problem DescriptionThe session crashes and generates a core file when building the lookup cache for lookup tables that have large amounts of data. The error is seen when the lookup table contains millions of records.CMN_1552: Error accessing lookup cache.
2010-10-22 09:45:00
7782
原创 Informatica Incremental load Strategy
ETL, incremental load, version_number
2010-09-03 12:31:00
927
原创 copy a reusable transformation as non-reusable transformation
Informatica TransformationReusableNon-reusable
2010-09-01 13:06:00
433
转载 Kimball University: The 10 Essential Rules of Dimensional Modeling
Follow the rules to ensure granular data, flexibility and a future-proofed information resource. Break the rules and you'll confuse users and run into data warehousing brick walls.
2010-08-03 16:06:00
638
原创 Target-> Generate/Execute SQL 灰色被屏蔽,不可用(Greyed Out)
<br />Informatica 8.6<br />点击target - > create 随便创建一个target之后就能用了。这个像是informatica的bug~~~
2010-08-03 14:29:00
881
原创 REP_61082
<br />[REP_61082] AdminConsole's code page (MS Windows Latin 1 (ANSI), superset of Latin1) is not one-way compatible to repository xxxx...<br />通过修改注册表:设置HKEY_LOCAL_MACHINE-->SYSTEM-->CurrentControlSet-->Control-->Nls-->CodePage-->ACP 的值为20127<br />restart
2010-08-03 14:27:00
3062
原创 OBIEE
<br />Initialization Block:<br />SELECT LANG_ID <br />FROM D1_LANG <br />WHERE LANG_ID = 'VALUEOF(NQ_SESSION.WEBLANGUAGE)'<br /> <br />Here "NQ_SESSION.WEBLANGUAGE" is the system variable. What else exists in NQ_SESSION?<br />
2010-07-29 11:21:00
126
原创 关于管理
<br />关于销售:<br />现在的销售真是越来越不专业了。卖衣服、卖钻石、卖汽车、卖电脑等等等等,其实销售人员都是快餐文化出来的。<br />那天我去老凤祥,那个卖钻戒的居然不晓得钻石上有编码的事情。这样的人怎么卖得出好业绩呢?!更别提她把I-J成色的说成D成色的事情了,不够专业都让顾客怀疑到她的诚信问题了。我就说,D成色还能卖那么便宜?<br />诚然这样的销售人员比较便宜,但是既然做一行,就要有起码的敬业,要有一定的专业知识,要能忽悠到客户。这不仅仅是对公司负责,同样也是对自身提高销售量的一个先决
2010-07-05 14:48:00
371
原创 ORA-12514: TNS:listener does not currently know of service requested in connect descriptor
Cause:The listener received a request to establish a connection to a database or other service. The connect descriptor received by the listener specified a service name for a service (usually a database service) that either has not yet dynamically register
2010-06-18 10:53:00
1632
原创 开源网站
sourceforge http://www.sourceforge.netjava.net http://www.java.netwww.eclipse.orgwww.opensource.orghttp://strutstestcase.sourceforge.net (StrutsTestCase 是基于Junit的一个方便测试struts框架的测试框架)Lomboz http:
2010-05-26 15:43:00
783
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人