东尔科技-优快云博客

原创 ChatBI实战分享: 一汽、星巴克、腾讯、平安等8家企业案例介绍

注：数据分析工作流的各个环节需要不同的大模型能力，上图所示大模型①、大模型②、大模型③为擅长不同能力方向的大模型能力示意，在实际落地过程中，企业可以选择在同一个大模型上训练多种能力，也可以选择多个大模型，在某些场景下还可以利用大小模型相结合的方式。大模型的出现极大地提升了BI产品的交互性，ChatBI通过将复杂的数据分析过程简化为用户与机器的对话，使得用户无需具备专业的数据分析技能，也能轻松获取所需的数据洞察，将极大地降低数据分析门槛，提高数据分析的效率和便捷性。

2025-02-20 20:38:01 1486

原创 OpenAI是如何将RAG的准确率优化至98%的

这次的分享不仅展示了提高大型语言模型性能的多种技术手段，也强调了在实际应用中根据业务场景灵活选择和组合技术的重要性。通过深入理解和应用这些策略，我们可以更有效地优化AI模型，推动AI技术的发展和应用。

2025-02-20 18:01:01 972

原创关于RAG优化的几个小技巧

这类方法的思路是分为两个步骤进行检索，首先通过摘要部分进行召回检索，过滤出可能和当前问题相关的候选文档集，然后再利用切片索引，从候选的文档集中进行检索，召回相关的知识切片。另一方面，在实际的业务场景中，准确率可能是现阶段最重要的问题，业务人员对于应用的要求可能是90分，而LLM目前的能力只能达到60分，如果不能通过其它的方式提升效果，那么应用可能无法在实际场景中使用了。一种处理的方案是，通过分割和存储小块数据来实现，在检索过程中，它首先获取小块，然后查找这些块的父ID，并返回那些较大的文档。

2025-02-19 22:42:01 876

原创 PET-SQL:基于大模型的两阶段Text2SQL方法

PET-SQL这篇文章提出了一种创新的基于大型语言模型的Text2SQL方法，该方法将SQL生成过程分为两个不同的阶段。在第一阶段，系统利用了数据表的schema信息、数据表中的采样数据以及与问题相似的问答对，共同作用生成初步的SQL语句，称之为PreSQL。这一阶段的目标是快速生成一个接近目标的概要SQL。随后，进入第二阶段，系统执行schema linking操作，这一过程通过智能过滤掉与当前问题不相关的schema信息，进一步提升SQL语句的准确性，从而生成最终的SQL语句，即FinSQL。

2025-02-19 22:20:17 1111

原创 RAG2SQL工具介绍，效果比Text2SQL更好?

Vanna 是一个开源的基于大模型和 RAG 的 Text2SQL 工具，Vanna 通过结合RAG 框架、大语言模型、高质量的训练数据、持续优化能力、广泛的数据库支持以及开源定制化的特点，实现了在复杂数据集上的高精度表现。使用 Vanna 可以使用任何的大模型、任何的向量数据库、任何的前端，和任何的关系数据库交互。

2025-02-18 20:38:44 1095

原创 DAIL-SQL教你刷Spider榜单-论文详解

大型语言模型（LLM）用于Text2SQL任务已成为一种新范式。然而，缺乏系统的基线benchmark阻碍了基于 LLM 的Text2SQL方案设计。为了应对这一挑战，在本文中，论文首先进行了系统且广泛的研究，与现有提示工程方法prompt engineering methods比较，包括问题表示question representation、例子选择example selection和例子组织example organization，并通过这些实验结果，论文阐述了它们的优点和缺点。

2025-02-18 15:49:05 918

原创 Text2SQL数据集和技术方案整理

2017年开源的一个大型文本到SQL数据集WikiSQL，数据来自维基百科，属于一个单一的领域，包含80654个自然语言问题和77840个SQL语句。SQL语句的形式相对简单，不包括排序、分组、子查询和其他复杂操作。

2025-02-17 15:56:29 2655 1

原创数据可视化Agent-基于Text2SQL的数据分析方案

从上面的基准测试中可以看到，大部分的测试结果都结合了类似DAIL-SQL, DIN-SQL，C3-SQL这样的说明，这其实表示的是在模型测试时采用的一种生成式SQL的Prompt工程方案，因此优化的提示词工程与优秀的大模型结合是能够获得最高测试结果的方法。其核心优化方法的本质是: 在传统的text2SQL的提示词中通过注入一些相似的样例，利用LLM的上下文学习能力，以提高输出SQL的精度。前文我们提到过，评估输出的SQL是否正确是个复杂的工程，好在目前已经有较多的研究项目有现成的评估结果可以参考。

2025-02-14 19:38:05 1319

原创数据可视化Agent-企业应用中基于LLM的数据分析方案

这种技术实现方案，在本质上是在传统的数据分析上增加一层自然语言处理UI，核心的数据分析功能需要自行设计API来实现。所以这种方案的好处主要包括:核心的分析逻辑不依赖于大模型，相对来说，对输出结果更加可控。对于包含复杂分析逻辑的任务，如涉及多数据源，多推理逻辑等，可以把内部的复杂性对大模型屏蔽。对于分析逻辑经常变化的任务，能减少对输出稳定性的影响。这种方案的不足主要表现在:核心分析逻辑API实现，需要极高的业务理解和抽象能力。灵活性与扩展能力差，受限于已经实现的开放API库。

2025-02-13 20:12:07 948

原创 Self-RAG: 大模型集检索与生成能力的自主调优方法

前面的 RAG 方法都遵循着共同的范式，即：其中 query 表示用户的输入，context 表示检索获得的补充信息，然后共同输入到 LLM 中，可以认为这是一种检索前置的被动的增强方式。相比而言，Self-RAG 则是更加主动和智能的实现方式，主要步骤概括如下：判断是否需要额外检索事实性信息（retrieve on demand），仅当有需要时才召回平行处理每个片段：生产prompt+一个片段的生成结果使用反思字段，检查输出是否相关，选择最符合需要的片段；再重复检索。

2025-02-12 20:57:16 838

原创一文讲透RAG在垂直领域大模型的应用

2020年lewis等人，针对知识密集型的NLP任务，提出了一种相对灵活的技术，成为检索增强生成(RAG)。研究人员将生成模型与检索器模块相结合，以提供外部知识源的附加信息，并且这些信息可以高效的实现更新和维护。RAG在垂直大模型问答场景下，类似于一场开卷考试，如果将大模型比喻为一个学生，在开卷考试的场景下，学生是可以携带笔记和学习资料，用来查找相关信息来回答问题。这种考试的重点是考察检索到相关信息后的推理能力，而不是检索特定信息的能力。知识混淆: 将世间客观知识和知识库中知识混淆。

2024-02-18 17:16:45 4342 1

原创 LLM在Text2SQL任务实践优化-智能数据可视化Agent

本文是根据Text2SQL任务做的业务延伸，主要是在给某客户公司完成相关开发需求时遇到的具体业务问题进行的总结，并针对业务问题进行的优化。Agent版本对比V2.0等算法优化工作多了额外的数据可视化模块，属于商业交付的业务。算法层面的优化，可以参考作者前面的几篇文章。这里的任务是国外的客户，数据采用的甲方提供的数据，英文形式，底座模型采用的是langchain的gpt4模型。

2024-01-25 16:06:47 1684

原创大模型在任务型对话领域的应用探索(一)

对话系统(Dialogue System)，是一种模拟人类并旨在与人类形成连贯通顺对话的计算机系统。它能够理解用户输入的文本或语音，然后根据用户的需求做出相应的回应。对话系统一般包括任务型对话、生成式对话和检索式对话等场景。它是人工智能领域的重要应用之一，能够被广泛应用在客服机器人、语音助手、智能家居等领域。

2024-01-05 13:39:55 3201 1

原创 LLM在中文Text2SQL领域的应用

本文主要是针对中文Text2SQL业务场景做的业务落地，即通过用户输入的自然语言文本信息(Text)，转换为对应的SQL查询语句，然后通过对数据库中的数据进行检索查询，自动化生成相关的可视化表格，以可视化报表的形式与用户实现交互。上述业务功能为作者团队原创，有合作需求，可以留言联系。

2024-01-03 23:24:41 998 1

原创 LLM在中文Text2SQL任务上的优化V2.0

本文是根据Text2SQL的任务做的深度优化，主要是从中文Text2SQL任务中发现的问题进行总结归纳，然后根据业务问题提出候选的解决方案，并给出作者在此解决方案上的效果。这里的优化，整体上对Text2SQL任务的效果提升还是很明显的，但是仍在存在一些问题，后续可以尝试着去探索。RAG的效果提升相对较为明显，可以尝试更深入的RAG优化尝试。针对复杂的数据结构，需要支持部分agent的功能，如抽取某字段的K-V对信息，或对表中的数据实现对应的api操作。

2023-12-29 14:53:34 1379 1

原创 LLM在中文Text2SQL任务上的优化V1.0

这里的优化，整体上对Text2SQL任务的效果提升还是很明显的，但是仍在存在一些问题，后续可以尝试着去探索。同一个数据库中的表和列名较多时，构建相关的prompt会比较长，每次请求输入原始文本会比较繁琐，可以尝试schema embedding或RAG方法。中文的语义理解需要进一步进行推理，如’九块九’表示价格为9.9元，'今天’表示需要获取今天的日期。复杂的SQL需要进一步探索，如数据库中某个字段的数据格式可能为json格式。尝试更多的SFT微调策略。

2023-12-28 14:46:22 1404 1

原创 LLM在中文Text2SQL任务上的实践

Text2SQL是将自然语言文本(Text)转换成结构化查询语言SQL的过程，属于自然语言处理-语义分析(Semantic Parsing)领域的子任务。通过该技术，可以简化查询创建过程，一般适用于简单的选择查询和复杂的查询操作，如级联查询等等。

2023-12-27 00:04:22 1839 3

平方的程序猿的专栏