混合异构数据源关联计算优化方案

最新推荐文章于 2025-04-26 18:40:11 发布

weixin_30787531

最新推荐文章于 2025-04-26 18:40:11 发布

阅读量123

点赞数

CC 4.0 BY-SA版权

文章标签：数据库大数据

原文链接：http://www.cnblogs.com/IBelieve002/p/10931870.html

报表项目中数据源常来自多种异构数据源，传统 ETL 方式配置复杂、成本高、数据无法实时访问等。而润乾报表可简单直接实现混合数据源报表，通过内置集算引擎读取数据源，以较小成本呈现实时报表。文中以《州销售人员销售报表》为例介绍了具体实现步骤。

在报表项目中，报表数据源常常会来自于多种异构数据源，例如：关系型数据库（oracle、db2、mysql）、nosql 数据库（mongodb）、http 数据源、hadoop（hive、hdfs），甚至是 excel 或者文本文件。针对这类情况，通常的做法是采用 ETL 工具，将这些数据源都同步到数据仓库中再进行计算。不过这种做法存在以下问题：

1、配置复杂，难度较大；

2、成本较高；

3、数据无法实时访问，时间延迟较长；

4、数据仓库的建设和管理都比较复杂；

5、如果数据量很大效率会很低，而且要不断的 ETL 各个应用系统的同步数据；

6、数据仓库利用的也是传统数据库的技术，负载增大的时候需要用较高的成本进行扩容。

和这种传统做法相比，采用润乾报表可以简单直接地实现混合数据源报表，具体做法是通过内置的集算引擎直接读取各种混合数据源，让数据采用最合适的方式存储，最终以较小的成本呈现基于混合数据源的实时报表。ETL 方式和润乾报表方式在体系结构上的对比如下图所示：

下面，通过《州销售人员销售报表》的设计制作来看一下具体的实现步骤。报表如下图：

报表的销售数据来自于销售系统的 mongodb 数据库，销售员的信息则来自人力资源系统的 db2 数据库。采用润乾报表的混合数据源方式，报表数据源不需要定期同步，不会有时间上的延迟。

第一步，在集算器设计器中编写脚本，并保存为 statesales.dfx，脚本内容如下：

	A
1	>hrdb=connect(“db22”)
2	=hrdb.query(“select * from employee where state=?”,state)
3	=mongodb(“mongo://localhost:27017/test?user=test&password=test”)
4	=A3.find(“orders”,,“{_id:0}”).fetch()
5	=A4.switch@i(SELLERID,A2:EID)
6	=A5.new(ORDERID,CLIENT,SELLERID.NAME:SELLERNAME,AMOUNT,ORDERDATE)
7	>hrdb.close()
8	>A3.close()
9	result A6