大数据环境下的数据集成与实时处理
1. 数据集成的基本原则
在企业范围内以可信、可控、一致和灵活的方式集成数据源,需要遵循以下三个基本原则:
- 创建数据定义的共同理解 :在大数据分析的初始阶段,对数据定义的控制程度可能不如操作数据。但一旦确定了与业务最相关的模式,就需要将数据元素映射到共同定义,并将其应用于操作数据、数据仓库、报告和业务流程中。
- 开发数据服务 :开发一组数据服务,对数据进行限定,使其保持一致并最终值得信赖。当非结构化和大数据源与结构化操作数据集成时,要确保结果有意义。
- 简化集成方式 :需要一种简化的方式来集成大数据源和记录系统。为了根据大数据分析结果做出良好决策,要在正确的时间和上下文中提供信息,确保大数据集成过程的一致性和可靠性。
2. 传统ETL技术
ETL(Extract, Transform, Load)工具结合了将数据从一个数据环境提取并放入另一个数据环境所需的三个重要功能,传统上用于数据仓库环境的批处理。
- 提取(Extract) :从源数据库读取数据。
- 转换(Transform) :将提取的数据格式转换为目标数据库所需的格式,可通过规则或与其他数据合并来完成。
- 加载(Load) :将数据写入目标数据库。
ETL不仅支持传统数据仓库的集成,还能支持事务系统、操作数据存储、BI平台、MDM中心、云以及Hadoop平台等的集成。许
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



