Tagetik ETL 网络结构如下:
基础知识:
1.一般企业系统较多,系统与系统之间要共享数据,需要建立一个数据仓库,如上图所示,ODS就是系统仓库,他的存在为系统间共享数据提供可能。ODS的表必须与数据来源系统的表一致,不应该因其他需求修改表,如建索引增加除标识字段以外的字段,以保证其他系统拿到的数据是纯净的数据。
2.Tagetik EDW 仓库为访问ODS,一般使用数据库连接来实现。这里的EDW仓库和TA数据库代表的都是物理数据库集合。他们都是Tagetik应用直接访问的数据库,也可以说EDW等于Tagetik数据库集合。 TA的ETL是软件自集成的功能,在TA WEB后台完成。
3.常用的ETL最终需要定时JOB。
Domain:
整个ETL的基础配置包含在DOMAIN中,DOMAIN可以理解成ETL实例的原材料容器,其中包含:维度和字典、参数、数据源、查找表、上载目标等。
Rountine:
ETL的实例程序,他是根据DOMAIN中的“原材料”来定制一个ETL的程序。
Job:
批量运行ROUTINE,它只会运行ROUTINE配置时激活的配置。
TA ETL数据流动:
对于复杂的情景无法通过ETL完成抽数,可以使用存储过程来写入数据。
问题总结:
1.运行ROUTINE/JOB在上载数据的时候,数据处理框中实例一直在运行、卡主。结束实例短时间无效。原因是因为在运行ETL的前后,上载目标表有相应DML操作没有被提交导致的。
2.对于维度上数据在数据提取前已经存在数据的情况,应该在数据源中添加该字段,并给对应维度赋值,否则会报空指针异常。