一直以来,BI平台的数据如何保证及时有效地更新,是很多用户关心的问题。通常情况下,对于T+1或其他定期性的数据分析,大多数BI平台,包括观远数据,都会采用定时任务的方式来触发数据更新。这边以观远数据为例,简单进行说明。
场景一:
▶某电商ERP平台需要从业务系统直接抽取数据至BI平台。
由于电商ERP平台白天业务交易繁忙,我们一般会采取凌晨一两点定时
进行前一天增量数据的抽取。
场景二:
▶某便利店客户自建了数仓,需要在每天数据处理完导入数仓后发起BI平台的数据更新。
由于BI平台的数据更新必须等数仓中数据更新完成了以后才能发起,所以必须要选择一个比较合适的数据更新时间点。比如数仓数据更新完成时间是每天7点,那么我们可以把BI平台的数据更新时间选在每天7点10分。
数据仓库(DataWarehouse),一般缩写成DW、DWH。数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
——来自智库百科
定时的数据更新存在弊端
有时候数仓的数据更新并不是每天都能准时完成的。比如,在品牌周年庆、双十一等大型营销活动举办的时候,数据量有可能会暴增,那么原本每天7点就能完成的数据导入工作,可能就需要多延长半个小时甚至更长。
而BI平台的数据更新如果还是在7点10分准时发起,那很有可能拿到的数据是不完整的。更有甚者,如果客户的ETL系统出现了问题,导致数仓数据根本就没有更新,或者数仓数据导入本身就需要人工完成的,完成时间上将存在很大不确定性。一旦这类情况发生,必须要用户去手动点击触发各个数据集的数据更新,非常麻烦