DW2.0下一代数据仓库架构_第22章 DW2.0环境中的处理(读书笔记)

本文详细介绍了DW2.0环境下的各种数据处理类型,包括简单事务、复杂事务、转换处理、统计处理及访问处理等,并讨论了这些处理在不同区域(如交互区、整合区和归档区)的应用特性。

版权声明:
该系列文章(DW2.0下一代数据仓库架构)内容系作者学习用笔记,
欢迎共同学习,所载内容版权归原书作(译)者所有,请勿转载商用。

    DW2.0环境的显著特点是在不同的区域能找到各种类型的数据。从许多方面说,是数据与区域定义了DW2.0.但是系统架构师的角度而言,
DW2.0不仅仅是一个数据架构。另一种方式是通过理解在各种环境或区域下找到的过程来理解DW2.0.DW2.0环境中存在多种类型的事务和过程
也许这些事务中最简单的就是一个简单的数据请求了。一个简单的数据请求是要找出一两行数据,然后以交互的形式显示它们。这种简单的
事务占用很少量的系统资源并且在逻辑上非常简单。这种事务经常存在于在线环境中,因为当系统正在执行这类事务时很容易得到优良的
性能。这里所描述的事务是预先定义的。因为其逻辑是预先确定的,所以终端用户只不过是运转使其执行事务。
    复杂事物是简单事务的一种变形。复杂事物通常比简单事务查看更多行的数据,且包含了相当多的逻辑,以及一些简单事务中所不包含
的东西。如果复杂事务的执行不需要太多的数据,那么它就可以自由地混入交互区的工作流中,而不会严重降低性能。复杂事务几乎总是预
先确定的,它们仅仅是通过终端用户来运转以执行。
    另一种简单事务的变形是一种基于特定基础上的事务。特定事务通常非常简单,不会存在复杂的逻辑。特定事务通常也不查看太多数据
但偶尔终端用户也会递交一个需要查看大量数据的特定查询请求。当运转一个要查看大量数据的特定事务时,性能就会受到影响。处于这样
原因,在交互环境中往往没有太多的特定事务,而在整合环境中的特定查询才更普遍。在很多情况下,会在数据集市环境中发现特定查询
请求,而这些请求往往是由商业智能软件产生的。实际上,除了参数外,终端用户不向商业智能软件输入任何东西。一旦写入参数后,就由
商业智能软件生成查询请求。
    另一类查询类型是访问请求。访问请求与简单的访问请求查询的不同在于访问请求往往要访问大量的数据。访问请求的逻辑往往非常简
单,然而它涉及到的数据量可能非常大。分析人员使用访问查询来扫描全部数据。有时候出现的仅仅查看一两行数据的情况是不能提供所需
要的信息的。由于需要访问大量数据,访问事务通常不会在交互区中执行。如果要在交互区中执行,那也只能在对系统的整体性能没有损害
的空白时间段执行。相反,访问事务更常见于在整合区和归档区中执行,访问请求很少在近线环境中执行。
    DW2.0环境中的另一种常见的处理时转换处理。转换处理对整体数据进行访问、改变以及写入新文件。在处理高峰期时,转换处理几乎
从不在交互环境中运行。转换处理通常由复杂的算法。在有些情况下,转换处理还包含非常复杂的过程。由于这个原因,一般都是在预先
定义的基础上编写转换处理,而其他形式都不常见,特定的转换处理在本质上绝不是特定的。
    元数据是转换处理的一个副产品。转换处理所执行的转换也都是元数据形成的。因此,作为处理的文档,元数据被写出并对DW2.0环境下
的许多人都非常有用。
    转换处理即适用于结构化数据也适合于非结构化数据。
    统计处理通常包含着复杂的处理逻辑。他们往往是所谓的启发式处理分析流的一部分。在启发式处理中,只是在紧接着的上一步分析完
成后,下一步分析工作才比较明显。因此,启发式处理需要一种特定的处理过程。
    DW2.0环境的不同部分通常执行不同类型的处理。交互区中有简单事务和复杂事务,没有统计处理,没有访问处理,只有能在不存在资源
冲突的地方有条不紊的方式运行的事务,换言之,交互环境的工作流用于少量的快速运行的以及有良好秩序的事务。出去这些情况,其他情
况都会终端事务流并且对性能产生消极影响。整合环境执行各种处理。当数据进入整合环境时进行转换处理。环境一经创建,就执行特定
处理,访问处理以及复杂处理。整合环境中执行处理的最终结果是混合的工作量,正因如此,系统的整体性能不够问题。近线区实际上很少
执行处理,然而在归档环境中执行的操作往往是资源非常密集的处理。归档环境中的普遍处理时统计处理和访问处理。如果已经建立被动
索引,那么归档环境中的处理通常会很有效,如果没有,那么不得不对归档环境中的全部数据进行扫描。在归档环境中,在线和高性能不是
问题。
    唯一一个处理非结构化数据的环境是整合环境。非结构化整合环境中有多种处理,有简单处理、简单特定处理、复杂处理以及访问处理
另外非结构整合环境放置的数据是非结构化数据经过转换处理后得到的。

总结:
    处理时DW2.0环境的一部分。DW2.0环境中的一些处理类型包括:简单事务;复杂事物;转换处理;统计处理;访问处理等。由于这些处理
中的数据以及各区的性能特征,不同类型的处理在DW2.0环境中的不同位置有着密切的关联。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/26613085/viewspace-1310986/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/26613085/viewspace-1310986/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值