实时数仓
实时数据仓库解释
说白了就是针对于“实时”数据【场景要求数据的实时性比较高】,对于实时数据进行有效的数据资产的管理和数据治理的统一标准,来达到数据的可利用性、完整性、有效性。在数据产生时就对数据进行处理和分析,用来提供实时的决策和支持。`
实时数据仓库VS离线数据仓库
(1)时效性:实时数据仓库对于数据是实时产生的事务数据,离线数据仓库对于数据的时效性要求不高【历史数据的分析】。实时数据仓库=当下时间的及时数据处理。离线数据仓库=过去时间范围内的数据处理。
(2)使用场景:实时数据仓库适用于实时决策的场景(实时监控、实时分析)而离线数据仓库适用于对历史数据进行分析和挖掘。
(3)技术架构:实时数据仓库采用流式数据处理技术,离线数据仓库采用批处理技术。
(4)数据量与复杂度:实时数据仓库处理的数据量远小于离线数据仓库,且实时数据仓库的处理复杂度较低;离线数据仓库处理海量的历史数据,所以需要更加复杂的处理逻辑和分析成本。确保系统的可靠性和连续性,需要更多的备份和容错措施。
(5)建设与维护:实时数据仓库的建设和维护的成本高于离线数据仓库,因为实现实时处理要求硬件的配置更高、资源更大,需要对其进行实时的保障和维护来达到数据和整个仓库的稳定性且需要更加专业的人员去管理。
(6)数据完整性:实时数据仓库更偏向于数据的完整性,且适合事务+分析的数据流转。而离线数据仓库只面向与分析。实时数据仓库可能对数据的准确性和完整性要求较高。离