FDW(Foreign Data Wrapper)

上一篇博客里,最末尾提到了 FDW。pg 实现了数百个 fdw 插件,用于访问外部数据。

FDW 到底是什么呢?

标准

FDW(Foreign Data Wrapper)遵循了 SQL/MED 标准,标准全称:ISO/IEC 9075-9 Management of External Data (SQL/MED)

2003 年,SQL/MED(SQL Management of External Data)被加入 SQL 标准,其为外部数据管理提供了规范。在 2011 年发行的 PostgreSQL 9.1 开始支持外部数据读,2013 发行的 PostgreSQL 9.3 开始支持外部数据写。

下面两篇 PG wiki 内容介绍得很详细:

  • https://wiki.postgresql.org/wiki/SQL/MED
  • https://wiki.postgresql.org/wiki/Foreign_data_wrappers

FDW 有何用?

source:https://leileiluoluo.com/posts/postgres-foreign-data-wrappers.html

  1. 数据分片

使用 FDW 将数据分布式存储在多个数据库上从而实现数据分片(如 pg_shardman 插件,即是使用 postgres_fdw 和 pg_pathman 插件来实现数据分片的)。

  1. 数据同步

使用 FDW 建立本地数据库与外部数据库的连接,即可定时同步外部数据至本地。

  1. 数据迁移

使用 FDW 建立本地数据库与外部数据库的连接,即可进行数据迁移。

  1. ETL(Extract-Transform-Load,抽取转换加载)

使用 FDW 将来自不同类型数据库的数据抽取到一个数据仓库中,便于统一化访问。

在这里插入图片描述

PG 实现

pg 实现了数百个 fdw,用于访问外部数据,包括:

  • Generic SQL Database Wrappers (如 JDBC、ODBC)
  • Specific SQL Database Wrappers(如 MySQL、SQLServer)
  • NoSQL Database Wrappers(如 Redis、Cassandra)
  • File Wrappers(如 CSV、JSON、Parquet)
  • Geo Wrappers
  • LDAP Wrappers
  • Generic Web Wrappers(如 git、www)
  • Specific Web Wrappers
  • Big Data Wrappers(如 ES、HDFS、Hive、Arrow)
  • Operating System Wrappers
  • Exotic Wrappers(如 faker_fdw)

这个页面里,可以找到这些 Wrapper 的源码

从上面的实现里可以看到,所有 wrapper 的核心,都是实现 FdwRoutine 中的接口。

/*
 * Foreign-data wrapper handler function: return a struct with pointers
 * to my callback routines.
 */
Datum
jdbc_fdw_handler(PG_FUNCTION_ARGS)
{
	FdwRoutine 	*fdwroutine = makeNode(FdwRoutine);
	
	#if (PG_VERSION_NUM < 90200)
	fdwroutine->PlanForeignScan = jdbcPlanForeignScan;
	#endif

	#if (PG_VERSION_NUM >= 90200)
	fdwroutine->GetForeignRelSize = jdbcGetForeignRelSize;
	fdwroutine->GetForeignPaths = jdbcGetForeignPaths;
	fdwroutine->GetForeignPlan = jdbcGetForeignPlan;
	#endif

	fdwroutine->ExplainForeignScan = jdbcExplainForeignScan;
	fdwroutine->BeginForeignScan = jdbcBeginForeignScan;
	fdwroutine->IterateForeignScan = jdbcIterateForeignScan;
	fdwroutine->ReScanForeignScan = jdbcReScanForeignScan;
	fdwroutine->EndForeignScan = jdbcEndForeignScan;

	pqsignal(SIGINT, SIGINTInterruptHandler);

	PG_RETURN_POINTER(fdwroutine);
}

关于 FdwRoutine 中每个接口的含义,可以参考 PG 官网文章:https://www.postgresql.org/docs/current/fdw-callbacks.html

关于 FdwRountine 的更多细节,可以参考专门的文章,十分有趣。如果你希望写一个自己的 wrapper,从 helloworld 入手会非常合适。

思考

PG 真的是一个学院派数据库!在设计之初就能提炼出一个具备进化能力的外部数据接入框架,实在是伟大(实际经历过企业系统研发的人是能体会的)。

FDW 从产品层面的成功之处,是定义好了一套标准的使用接口,包括:定义 FDW Server;定义 FDW 外表,且支持传入选项。

例如:

CREATE SERVER foreign_server
        FOREIGN DATA WRAPPER postgres_fdw
        OPTIONS (host 'localhost', port '5432', dbname 'postgres');
        
CREATE FOREIGN TABLE foreign_weather (
      city        varchar(80),
      temp_low    int,
      temp_high   int,
      prcp        real,
      date        date
  ) SERVER foreign_server
    OPTIONS (schema_name 'public', table_name 'weather');
    
IMPORT FOREIGN SCHEMA public FROM SERVER foreign_server INTO public;

有了这套接口,用户就能够非常自由地实现自己的 fdw 扩展。

FDW 从执行层面的成功之处,成功定义了 FdwRoutine 接口,在整个 postgres 实现中贯彻了接口思想,落实在了代码中。

进一步思考

FdwRoutine 支持的接口看,并不支持 batch mode,它仅支持火山模型的逐行读取。假设要支持高效的 parquet 文件向量化处理,用 parquet_fdw 插件大约是获取不到最优性能的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值