
点击流数据仓库
文章平均质量分 50
Cormier-an
且行且思
展开
-
设计点击流数据仓库时遇到的挑战
目前在做一个有关网站点击流信息方面的数据仓库(集市)项目,一开始发现存在着很多难以完美解决的挑战1.丢失的来源 点击流信息库当中会比较在意会话的来源,来源网页,来源搜索相关的关键字、搜索引擎等相关信息 但是不管如何,总是会存在着会话来源丢失的问题,这可能跟访问者所使用的浏览器设置,以及其他一些因素有关 。这部分丢失的数据会占到整个数据的10-20%左右,如何找回这部分丢失的原创 2013-09-07 15:24:02 · 1267 阅读 · 0 评论 -
事实表和维表中多对多关系 ----桥接表
桥接表(Bridge Table)是维度建模中的一类比较特殊的表。在数据仓库的建模时,会遇到具有层次结构的维度表,对于这样的表有一种建模方式是建立父子表,即每条记录上包括一个指向其父记录的字段。这种父子表的建立在层级深度可变时尤其有用,是一个紧凑而有效的建模方式。但是这种建模方式也有缺点,就是用标准SQL很难对递归结构进行操作。与这种递归结构的父子表不同,桥接表采用不同的建模方式也转载 2013-09-06 09:21:20 · 7124 阅读 · 0 评论 -
建立数据仓库---- 聚集策略
聚集策略每个数据仓库都应该包含预先计算并预先保存的聚集表。如果给定了严 格避免出现混合事实表糙度的规则,期每个独特事实表聚集都应该拥有聚集 的物理事实表。在对事实进行聚集操作时,要么消除维度性,要么将事实与 堆租维皮联系起来。这些堆积形成的聚集维度事实表应该是与基本粒度事实 表棉联系的维皮压缩版本。这样,聚集维度表与基本维度表就能保持一致。考虑建立所有可能的聚集组合是不切实际的转载 2013-09-17 16:41:57 · 1768 阅读 · 0 评论 -
网站流量统计分析---指标
网站流量分析 网站流量分析,是指在获得网站访问量基本数据的情况下对有关数据进行统计、分析,从中发现用户访问网站的规律,并将这些规律与网络营销策略等相结合,从而发现目前网络营销活动中可能存在的问题,并为进一步修正或重新制定网络营销策略提供依据。当然这样的定义是站在网络营销管理的角度来考虑的,如果出于其他方面的目的,对网站流量分析会有其他相应的解释。在商业行为的网站中,企业网站流量统计分析对原创 2013-09-16 15:26:50 · 6221 阅读 · 0 评论 -
cookie---点击流数据库
细说Cookie阅读目录开始Cookie 概述Cookie的写、读过程使用Cookie保存复杂对象Js中读写CookieCookie在Session中的应用Cookie在身份验证中的应用Cookie的安全状况如何在C#发请的请求中使用Cookie重构与使用总结补充Cookie虽然是个很简单的东西,但它又是WEB开发中一个很重要的客户端数据来源,而且它转载 2013-09-15 10:36:22 · 1279 阅读 · 0 评论 -
ETL---数据清洗转化
1、数据清洗数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据和重复的数据三大类。 A、不完整的数据 其特征是是一些应该有的信息缺失,如供应商的名称,分公司的名称,客户的区域信息缺失、业务系统中主表与明细表不能匹配等。需要将这一类数据过滤出来,按缺失的原创 2013-09-14 11:13:56 · 4748 阅读 · 0 评论 -
数据ETL面临的问题----数据缺失
数据缺失的类型有:完全随机缺失(Missing Completely at Random,MCAR):数据的缺失与不完全变量以及完全变量都是无关的;随机缺失(Missing at Random,MAR):数据的缺失不是完全随机的,数据的缺失只依赖于完全变量; 完全非随机缺失(Missing Not At Random,MNAR):数据的缺失依赖于不完全变量自身原创 2013-09-12 09:44:10 · 4188 阅读 · 0 评论 -
日期维度上不能向上汇总的度量
Qing 20060927和阿龙探讨一个问题,其实已经不止一次地说起了。只是不知道该如何为他命名,差不多就是跟以前遇到的"通话用户数"问题类似,他这里是订购用户数。这个值,在不同时间粒度上,是需要去重计算的。例如下面一组数,想象这是一个用户订购表,每条记录表示用户发生了订购或退订,date表示日期,usr表示用户,act表示订购(s)/退订(u)。 date usr act转载 2013-09-12 09:09:14 · 1430 阅读 · 0 评论 -
数据仓库建模--不同聚合方式(聚合函数示例)
使用聚合函数本主题包含在度量值中使用聚合函数(Sum、Min、Max、Count 和 Distinct Count)的示例。 查询示例与下列示例基于相同的多维数据集单元,以便可以查看更改函数的结果。这些示例使用的多维数据集有一个“销售额”度量值,它基于 Sales 事实数据表中的 Sales_Amount 列。 此多维数据集有三个维度:“客户”,转载 2013-09-12 08:56:58 · 2608 阅读 · 0 评论 -
多维模型---不可累加度量(求和之外的度量聚合)
定义半累加性行为在很多业务方案中,半累加性度量值是非常常见的,它不在所有维度中统一进行聚合。 每个基于余额快照的多维数据集都会随着时间的推移而出现此问题。 您可以在用于处理证券、帐户余额、预算、人力资源、保险策略和法律事务以及很多其他业务领域的应用程序中找到这些快照。通过在多维数据集中添加半累加行为,可以为帐户类型属性的单个度量值或成员定义聚合方法。 如果多维数转载 2013-09-12 08:43:11 · 2921 阅读 · 0 评论 -
数据仓库开始----范围的确定
数据仓库项目准备完毕后,接着就要考虑设置初始项目的范围。项目的范围需要 IT 机构与业务管理人员一起就进行确定。数据仓库项目范围应该在带给机构的价值与可管理性这两个方面都显得富有意义,避免过于考虑价值而忽略了可操作性。首轮设计开始阶段,应该将注意力集中在来自单个业务处理的数据上,这样可以尽快让用户看到初始原型,以便有进一步的功能需求。 对于那些更有挑战性的交叉处理项目,应该等到以后原创 2013-09-09 09:11:09 · 1043 阅读 · 0 评论 -
数据仓库成功的主要指标
数据仓库项目开始之前,为慎重起见,先花费一点时间评估一下继续行进所需要的机构准备情况。根据从开发实践中积累起来的经验,确定了五个用于区别能够平稳推进的项目与总是出问题的项目的因素。这些因素是衡量数据仓库成功与否的主要指标。虽然并不需要在项目推进过程的每个因素方面都取得高分,但是任何欠缺都意味着风险或者脆弱。1. 最为重要的因素是拥有精明强干的业务赞助人。业务赞助人应该对数据仓原创 2013-09-09 09:36:34 · 4118 阅读 · 0 评论 -
SSIS----改进数据流的性能
可以配置数据流任务的下列属性,这些属性都会对性能产生影响:为缓冲区数据(BufferTempStoragePath 属性)和包含二进制大型对象 (BLOB) 数据的列(BLOBTempStoragePath 属性)指定临时存储位置。默认情况下,这些属性包含 TEMP 和 TMP 环境变量的值。您可能希望指定不同或更快的硬盘驱动器上的其他文件夹来存放临时文件,或将它们分布在多个驱动器转载 2013-10-28 16:30:15 · 12114 阅读 · 0 评论