探索数据之美：一个全新的中文NL2SQL基准库

最新推荐文章于 2025-05-15 09:28:19 发布

戴洵珠Gerald

最新推荐文章于 2025-05-15 09:28:19 发布

阅读量601

点赞数 5

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00099/article/details/138558763

探索数据之美：一个全新的中文NL2SQL基准库

nl2sql_baseline项目地址:https://gitcode.com/gh_mirrors/nl/nl2sql_baseline

项目介绍

在大数据时代，自然语言与结构化查询语言（SQL）的交互变得日益重要。为此，我们欣然推出一个改进版的SQLNet基线模型，专为处理中文自然语言到SQL转换（NL2SQL）任务而设计。这个开源项目源于Xiaojun Xu等人的研究，并针对中文数据集进行了优化，旨在帮助开发者更好地理解和构建自然语言查询系统。

项目技术分析

该模型采用了分解策略，将生成完整SQL的过程划分为多个子任务，如选择列数、选择列、聚合函数选择等。值得注意的是，本项目新增了“Select-Number”和“Where-Relationship”子任务，以适应中文NL2SQL数据集的独特需求。具体架构如图所示，详细的实现细节可参考原论文。

graph TD;
    A[NL Question] --> B[Tokenizer]
    B --> C[Sub-task Modules]
    C -- Select-Column --> D[SQL Generation]
    C -- Select-Number --> D
    C -- Select-Aggregation --> D
    C -- Condition-Number --> D
    C -- Condition-Column --> D
    C -- Condition-Value --> D
    D --> E[Execution Accuracy Calculation]