关于ODS

  ODS是一个面向主题的、集成的、可变的、当前的细节数据集合,用于支持企业对于即时性的、操作性的、集成的全体信息的需求。常常被作为数据仓库的过渡,也是数据仓库项目的可选项之一。

    根据Bill.Inmon的定义,“数据仓库是面向主题的、集成的、稳定的、随时间变化的,主要用于决策支持的数据库系统”     ODS是一个面向主题的、集成的、可变的、当前的细节数据集合,用于支持企业对于即时性的、操作性的、集成的全体信息的需求。常常被作为数据仓库的过渡,也是数据仓库项目的可选项之一。     在Kimball的<<数据仓库生命周期工具集The Data WareHouse Liftcycle Toolkit>>,他是这样定义的     1. 是操作型系统中的集成,用于当前,历史以及其它细节查询(业务系统的一部分)     2. 为决策支持提供当前细节数据(数据仓库的一部分)     因此操作数据存储(ODS) 是用于支持企业日常的全局应用的数据集合,ODS的数据具有面向主题、集成的、可变的和数据是当前的或是接近当前的4个基本特征。同样也可以看出ODS是介于DB和DW 之间的一种数据存储技术,和原来面向应用的分散的DB相比,ODS中的数据组织方式和数据仓库(DW)一样也是面向主题的和集成的,所以对进入ODS的数 据也象进入数据仓库的数据一样进行集成处理。另外ODS只是存放当前或接近当前的数据,如果需要的话还可以对ODS中的数据进行增、删和更新等操 作,虽然DW中的数据也是面向主题和集成的,但这些数据一般不进行修改,所以ODS和DW的区别主要体现数据的可变性、当前性、稳定性、汇总度上。     由于ODS仍然存储在普通的关系数据库中,出于性能、存储和备份恢复等数据库的角度以及对源数据库的性能影响角度,个人不建议ODS保存相当长周期的数据,同样ODS中的数据也尽量不做转换,而是原封不动地与业务数据库保持一致。即ODS只是业务数据库的一个备份或者映像,目的是为了使数据仓库的处理和决策支持要求与OLTP系统相隔离,减少决策支持要求对OLTP系统的影响。     为什么需要有一个ODS系统呢?一般在带有ODS的系统体系结构中,ODS都具备如下几个作用:     1) 在业务系统和数据仓库之间形成一个隔离层。     一般的数据仓库应用系统都具有非常复杂的数据来源,这些数据存放在不同的地理位置、不同的数据库、不同的应用之中,从这些业务系统对数据进行抽取并不是一件 容易的事。因此,ODS用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽取过程中极 大降低了数据转化的复杂性,而主要关注数据抽取的接口、数据量大小、抽取方式等方面的问题。     2) 转移一部分业务系统细节查询的功能     在数据仓库建立之前,大量的报表、分析是由业务系统直接支持的,在一些比较复杂的报表生成过程中,对业务系统的运行产生相当大的压力。ODS的数据从粒度、 组织方式等各个方面都保持了与业务系统的一致,那么原来由业务系统产生的报表、细节数据的查询自然能够从ODS中进行,从而降低业务系统的查询压力。     3) 完成数据仓库中不能完成的一些功能。     一般来说,带有ODS的数据仓库体系结构中,DW层所存储的数据都是进行汇总过的数据和运营指标,并不存储每笔交易产生的细节数据,但是在某些特殊的应用中,可能需要 对交易细节数据进行查询,这时就需要把细节数据查询的功能转移到ODS来完成,而且ODS的数据模型按照面向主题的方式进行存储,可以方便地支持多维分析 等查询功能。即数据仓库从宏观角度满足企业的决策支持要求,而ODS层则从微观角度反映细节交易数据或者低粒度的数据查询要求。     在一个没有ODS层的数据仓库应用系统体系结构中,数据仓库中存储的数据粒度是根据需要而确定的,但一般来说,最为细节的业务数据也是需要保留的,实际上 也就相当于ODS,但与ODS所不同的是,这时的细节数据不是“当前、不断变化的”数据,而是“历史的,不再变化的”数据。这样的数据仓库的存储压力和性能压力都是比较大的,因此对数据仓库的物理设计和逻辑设计提出了更高的要求。

03-14
### ODS (Operational Data Store) in Data Warehousing and ETL Processes #### Definition of Operational Data Store (ODS) An **Operational Data Store (ODS)** serves as an intermediate database between transactional systems and a data warehouse. This layer allows for near real-time access to integrated operational data from multiple sources while maintaining performance levels suitable for day-to-day operations[^1]. Unlike traditional data warehouses that store historical information, the ODS focuses on current or recent transactions. #### Role within ETL Process In the context of Extract, Transform, Load (ETL), the role of an ODS is crucial during the extraction phase where raw data gets pulled into this staging area before undergoing any transformations required by business rules or analytical needs[^2]. Here are some key points about how it functions: - **Data Extraction**: Acts as a temporary holding place when pulling records out of source applications. - **Initial Processing**: Provides space for initial processing steps such as filtering duplicates or applying basic validation checks without impacting live environments. - **Performance Optimization**: Helps optimize query performance through indexing strategies tailored specifically towards frequently accessed queries used later stages like reporting tools connected directly against ODS tables instead accessing underlying OLTP databases which may not be optimized well enough handle complex joins across large datasets efficiently over time due their primary design being around fast insertions rather than reads. ```sql -- Example SQL statement showing creation of index on commonly queried column in ODS table CREATE INDEX idx_customer_id ON ods_customers(customer_id); ``` #### Characteristics Distinctive From Other Layers Compared with other components involved throughout building comprehensive Business Intelligence architectures including both front-end visualization dashboards all way back end storage mechanisms employed inside DWs themselves; there exist several distinguishing features associated particularly closely tied up here at level two – namely our subject matter today i.e., Operation Data Stores : - **Timeliness**: Designed primarily around providing timely insights derived straightaway off top most recently available figures coming out respective upstream producers feeding them regularly scheduled intervals ranging anywhere minutes apart even seconds depending upon criticality specific use cases under consideration . - **Granularity & Detail Level Retention**: Maintains higher granularity compared what typically found residing within fact dimension structures housed elsewhere downstream locations further along pipeline because latter tend aggregate summarize things more broadly speaking whereas former keeps detailed record keeping capabilities intact longer periods thus enabling drill-down analysis whenever necessary .
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值