将扩展的DuckDB自定义函数整合到一个程序

前段时间在DeepSeek的辅助下,先后实现了:

但使用不同功能要调用不同的程序很麻烦,而且有的程序没有输入SQL语句的界面,每次改变语句都要重新编译,不实用,所以将它们整合到一个带有交互式界面的程序。

整合的步骤其实很机械,在主程序中添加相应函数的注册代码,以及用某种方式将实现该函数的cpp程序加入编译,后者既可以用#include "源代码.cpp"的方式,也可以用#include "源代码.h"的方式再将源代码.cpp加入编译命令行,前一种更简单,不过后一种更规范。

修改后的主程序的增加部分如下:
包含头文件和源代码

#include "readpg5.cpp" //读取符合postgresql协议的数据库中的表
#include "csv_reader2.hpp" //读取中文字符集csv
#include "copy_files2.cpp" //将查询结果写入xls电子表格文件和docx文档文件,支持中文
#include "read_xls2.cpp" //读取xls电子表格文件

在注册程序void registerGMPFunctions()中添加如下行

    duckdb::DatabaseInstance& db_instance = *db_->instance;
    //注册read_pg自定义函数
    duckdb::ExtensionUtil::RegisterFunction(db_instance, PGTableFunction::GetFunction());
    
    //注册read_csv_e自定义函数
    duckdb::ExtensionUtil::RegisterFunction(db_instance, duckdb::ReadCSVEFunction::GetFunction());

    //注册read_xls自定义函数
    ExtensionUtil::RegisterFunction(db_instance, ReadXLSFunction::GetFunction());

    //注册copy to自定义函数, 支持xls和docx格式
    duckdb::RegisterMultiFormatCopyFunction(db_instance);

因为有同名冲突,修改了两处
1.在copy_files2.cpp中重新定义unsigned64_t后再包含xlslib.h,再取消

#define unsigned64_t xls_unsigned64_t
#include "xlslib.h"
#undef unsigned64_t

2.在read_xls2.cpp中将结构体XLSGlobalState改名为ReadXLSGlobalState,并同步修改两处对它的使用。

struct ReadXLSGlobalState {
    xlsWorkBook* workbook;
    xlsWorkSheet* worksheet;
    unsigned int current_row;
    bool finished;
};

struct XLSFunctionGlobalState : public GlobalTableFunctionState {
    duckdb::unique_ptr<ReadXLSGlobalState> xls_state;
};

unique_ptr<GlobalTableFunctionState> ReadXLSFunction::InitGlobal(ClientContext &context, 
                                                               TableFunctionInitInput &input) {
    auto result = make_uniq<XLSFunctionGlobalState>();
    auto &bind_data = (BindData &)*input.bind_data;
    
    result->xls_state = make_uniq<ReadXLSGlobalState>();

用如下命令行编译通过,注意xlslib是用的是修改后的支持中文的版本

export LIBRARY_PATH=/par:/usr/local/lib:/par/duck/build/src
export LD_LIBRARY_PATH=/par:/usr/local/lib:/par/duck/build/src

g++ csv_reader2.cpp minidocx-0.6.0/src/minidocx.cpp minidocx-0.6.0/3rdparty/pugixml-1.13/*.cpp minidocx-0.6.0/3rdparty/zip-0.2.1/*.c  ducksql2.cpp -o ducksql2  -lduckdb -lxls -I /par/duck/src/include -I /par/xlslib/xlslib/src -I minidocx-0.6.0/src -I minidocx-0.6.0/3rdparty/pugixml-1.13 -I minidocx-0.6.0/3rdparty/zip-0.2.1  -I xlslib/src -std=c++17 -lgmp -lpqxx -lpq -liconv -lxlsreader -O3

这里将minidocx-0.6.0的代码直接链接到二进制文件中,而没有使用动态链接库,如果使用后者,可以自行修改。

为了验证我们加入的自定义函数,可以采取以下步骤。
用官方duckdb CLI新建一个数据库,将系统函数列表存入一个表中

 ./duckdb130 duck130.db
DuckDB v1.3.0 (Ossivalis) 71c5c07cdd
Enter ".help" for usage hints.
D create table tduckdb_functions as select * from duckdb_functions();
D select * from tduckdb_functions limit 1;
┌───────────────┬──────────────┬─────────────┬───────────────┬──────────┬───────────────┬─────────────┬───┬──────────────────┬──────────────────┬──────────┬──────────────┬───────────┬───────────┬────────────┐
│ database_name │ database_oid │ schema_name │ function_name │ alias_of │ function_type │ description │ … │ macro_definition │ has_side_effects │ internal │ function_oid │ examples  │ stability │ categories │
│    varcharvarcharvarcharvarcharvarcharvarcharvarchar   │   │     varcharbooleanboolean  │    int64     │ varchar[]varcharvarchar[]  │
├───────────────┼──────────────┼─────────────┼───────────────┼──────────┼───────────────┼─────────────┼───┼──────────────────┼──────────────────┼──────────┼──────────────┼───────────┼───────────┼────────────┤
│ system        │ 0            │ main        │ duckdb_views  │ NULLtableNULL        │ … │ NULLNULLtrue72[]NULL[]         │
├───────────────┴──────────────┴─────────────┴───────────────┴──────────┴───────────────┴─────────────┴───┴──────────────────┴──────────────────┴──────────┴──────────────┴───────────┴───────────┴────────────┤
│ 1 rows                                                                                                                                                                                 20 columns (14 shown) │
└──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┘
D

然后用程序打开同一个数据库,将现在的函数列表与原有的备份比较,找出新增的

./ducksql2 duck130.db
DuckDB GMP Shell (enter 'exit;' to quit, 'read file.sql' to execute script)
Type 'timi on/off' to enable/disable timing
=============================================
duckdb> select function_name, function_type from duckdb_functions() where function_name not in(select function_name from tduckdb_functions);
┌───────────────┬───────────────┐
│ function_name │ function_type │
│    varcharvarchar    │
├───────────────┼───────────────┤
│ read_csv_e    │ table         │
│ read_xls      │ table         │
│ read_pg       │ table         │
│ mpz_add       │ scalar        │
│ mpz_div       │ scalar        │
│ mpz_mul       │ scalar        │
│ mpz_root      │ scalar        │
│ mpz_sub       │ scalar        │
│ mpz_sum       │ aggregate     │
└───────────────┴───────────────┘

可见,新增的copy to函数不在其中,但其实它们存在,当加载官方excel插件时,报了如下错误

duckdb> install excel;
duckdb> load excel;
Error: Invalid Input Error: Initialization function "excel_init" from file "/root/.duckdb/extensions/v1.3.0/linux_amd64/excel.duckdb_extension" threw an exception: "Catalog write-write conflict on create with "xlsx""

而把copy_files2.cpp中涉及xlsx格式的内容完全删除以后,重新编译执行,以上错误消失,证明我们原有的copy_files2.cpp确实处理了xlsx格式,虽然它实际上就是把xls文件改个后缀名,但duckdb还是不允许。
加载excel插件后的新增函数列表如下,现在我们的程序和它和平共处了。

duckdb> load excel;
duckdb> select function_name, function_type from duckdb_functions() where function_name not in(select function_name from tduckdb_functions);
┌───────────────┬───────────────┐
│ function_name │ function_type │
│    varcharvarchar    │
├───────────────┼───────────────┤
│ read_pg       │ table         │
│ read_xls      │ table         │
│ read_xlsx     │ table<--
│ read_csv_e    │ table         │
│ mpz_div       │ scalar        │
│ mpz_add       │ scalar        │
│ mpz_mul       │ scalar        │
│ mpz_root      │ scalar        │
│ mpz_sub       │ scalar        │
│ text          │ scalar        │<--
│ excel_text    │ scalar        │<--
│ mpz_sum       │ aggregate     │
├───────────────┴───────────────┤
│ 12 rows             2 columns │
└───────────────────────────────┘

各个函数的用法在引用的文章中都有,就不重复了。
另外,将程序输出结果的部分做了如下修改,使得explain语句能像官方CLI那样输出,而不是输出explain_value表的结果。

                std::string lower;
                lower.resize(query.size()); 

                transform(query.begin(), query.end(), lower.begin(), ::tolower);
                
                if (lower.find("explain ") ==  std::string::npos)
                    std::cout << result->ToBox(context, config) << std::endl; //正常语句输出
                else //explain语句输出
                    std::cout <<result->GetValue(1,0)<< std::endl;

修改前

duckdb> explain select 1 a;
┌───────────────┬───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┐
│  explain_key  │                                                                                         explain_value                                                                                         │
│    varcharvarchar                                                                                            │
├───────────────┼───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤
│ physical_plan │ ┌───────────────────────────┐\n│         PROJECTION        │\n│    ────────────────────   │\n│             a             │\n│                           │\n│          ~1 Rows          │\n└…  │
└───────────────┴───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┘

修改后

duckdb> explain select 1 a;
┌───────────────────────────┐
│         PROJECTION        │
│    ────────────────────   │
│             a             │
│                           │
│          ~1 Rows          │
└─────────────┬─────────────┘
┌─────────────┴─────────────┐
│         DUMMY_SCAN        │
└───────────────────────────┘

其他语句,现在的输出看起来不错,比如copy to返回写入的行数,就没有修改,如有需要也可以自行修改。

duckdb> copy (select mpz_mul('111111111111111111111111','222222222222222222222222')) to 'mpz_mul.docx';
┌───────┐
│ Count │
│ int64 │
├───────┤
│     1 │
└───────┘
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值