20、大数据环境下的数据集成与实时处理

大数据环境下的数据集成与实时处理

1. 数据集成的基本原则

在企业范围内以可信、可控、一致和灵活的方式集成数据源,需要遵循以下三个基本原则:
- 创建数据定义的共同理解 :在大数据分析的初始阶段,对数据定义的控制程度可能不如操作数据。但一旦确定了与业务最相关的模式,就需要将数据元素映射到共同定义,并将其应用于操作数据、数据仓库、报告和业务流程中。
- 开发数据服务 :开发一组数据服务,对数据进行限定,使其保持一致并最终值得信赖。当非结构化和大数据源与结构化操作数据集成时,要确保结果有意义。
- 简化集成方式 :需要一种简化的方式来集成大数据源和记录系统。为了根据大数据分析结果做出良好决策,要在正确的时间和上下文中提供信息,确保大数据集成过程的一致性和可靠性。

2. 传统ETL技术

ETL(Extract, Transform, Load)工具结合了将数据从一个数据环境提取并放入另一个数据环境所需的三个重要功能,传统上用于数据仓库环境的批处理。
- 提取(Extract) :从源数据库读取数据。
- 转换(Transform) :将提取的数据格式转换为目标数据库所需的格式,可通过规则或与其他数据合并来完成。
- 加载(Load) :将数据写入目标数据库。

ETL不仅支持传统数据仓库的集成,还能支持事务系统、操作数据存储、BI平台、MDM中心、云以及Hadoop平台等的集成。许

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值