解密Prompt系列32. LLM之表格理解任务-文本模态

前言

这一章我们聊聊大模型表格理解任务,在大模型时代主要出现在包含表格的RAG任务,以及表格操作数据抽取文本对比等任务中。这一章先聊单一的文本模态,既你已经通过OCR或者多模态等方式从PDF或者图片中获取了表格的文本数据。和前文相同,我们分别介绍微调和基于Prompt的两种方案。

Prompt LLM

首先我们介绍基于Prompt的方案,核心节约表格问答和推理中的两个问题:表格太大或包含的信息散落各处,问题复杂涉及到多步推理。如何使用prompt让模型在表格任务上更好进行COT,Dater和Chain-of-Table给出了方案,二者有前后关系,Dater在前。

而针对Prompt设计,表格推理还要解决表格数据如何输入prompt,推理效果更好的问题,这里微软的Table Meets LLM也做了实验尝试。

Dater

  • Large Language Models are Versatile Decomposers: Decompose Evidence and Questions for Table-based Reasoning

Dater的整体流程包含三个步骤:表格分解,问题分解,和合并推理。论文使用了GPT3 Codex作为模型。

Evidence Decomposer

第一步是证据拆解,从原始表格数据中,抽取和问题相关的数据,这里Dater使用行号和列号来表示相关的数据。以下使用Few-Shot Prompt来引导模型预测哪些Cell(row, index)和提问相关并返回。之后直接使用行号和列号从原始的表格中抽取出问题相关的数据,构建成更小更聚合的新的表格。

image

Question Decomposer

第二步是问题拆解,论文提出如果直接使用COT进行推理,在表格问题上很容易出现幻觉,所以论文提出了"Parsing-execution-filling"的方案,其实和ReACT,Self-ASK,IRCOT的思路是一样的,不过是适配到了表格任务上。

首先基于以下Few-Shot Prompt把原始问题拆解成子问题。这里需要注意的是,子问题不会直接使用表格中的数据进行回答,而是会把涉及数值答案的部分用{}进行掩码。

image

其次会基于以下few-shot prompt把子问题转化成SQL语句,这在TableQA的任务范式中较为常见,很多经典方案都是把TableQA转化成了NL2SQL的问题进行解决。

image

这里的表格数据只使用了原始的表格转化成了文本格式,并没有加入更多表格行,列相关Schema的数据,其实相比真实场景做了简化,这部分Schema和NL2SQL任务相似,可以参考解密Prompt系列15. LLM Agent之数据库应用设计

Jointly Reasoning

第三步是把前两步得到的sub-evidence和sub-questions(sql)合并在一起,同样是使用few-shot prompt进行推理。以下prompt是TableNLI任务,也就是基于表格数据判断描述是对还是错。效果我们放到后面的论文里一起说。

image

Chain-of-Table

  • Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding

image

谷歌提出的Chain-of-Table在Dater的基础上加入了更多,更灵活的表格操作。整个任务同样分成三个主要步骤:动态规划,参数推理和最终结果。整个过程中通过大模型多步规划和参数生成,对表格进行变换操作,直到输出最终变换后表格,并推理出最终的结果。

Dynamic Planning

动态规划是模型基于当前表格状态,历史表格操作,和用户提问,推理生成新的表格操作函数。对比Dater只通过选择CELL来缩小表格范围,这里Chain-of-Table利用大模型In-Context Function calling的能力,定义了可以灵活扩展的几个表格操作函数,以下为不同functino的解码参数和few-shot数量,其中f_select_row + f_select_column其实就对应上面Dater的表格操作。

image

动态规划部分prompt包括:以上每个函数的few-shot sample和函数描述,经过多步操作后当前的表格状态,问题和历史的Function chain。模型推理是下一步的操作function,或者END结束如下

image

Argument Generation

这里论文其实是把Function Call拆成了两步,分别是使用哪个操作,以及操作的入参。所以这一步是基于上面推理的操作函数,推理该函数的入参

参数生成的prompt包括:和规划prompt相同的表格状态,规划生成的操作函数,和每个操作的few-shot sample。这里不同的操作Function的推理格式会有差异,例如f_add_column,除了需要推理增加的列,还需要同时给出列的取值。再例如f_select_columns存在多列选择,因此使用*等正则表达式来支持可变参数列表。以下分别为f_add_column, 和f_select_column的few-shot demos

image

image

Final Query

经过一步或者多步上面的动态规划生成函数+参数生成生成入参,会使用该函数对表格进行多步操作,最后得到的表格用于问题回答。回答部分同样是few-shot prompt如下,基于多步操作得到的最终的表格和提问进行回答。

image

效果上对比Dater,使用不同的基座模型,Chain-of-Table在Wiki TQ和TabFact等表格理解任务上均有一定的提升。并且在不同大小的表格数据上也都有显著的提升。

image

Table Meets LLM

  • Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study

微软这篇论文主要实验并回答了两个问题

  • LLM对结构化数据的理解能力究竟如何
  • 对于表格类的任务Prompt应该咋写,包括表格的格式,内容的顺序,角色描描述和分割符对最终推理效果的影响有多少

首先论文把表格理解任务拆分成了多个可以定量评估的子任务,相比直接评估表格问答能力,以下子任务的评估更加简单直接,包括:

  • Table Partition:检测模型能否识别表格的边界,例如表格的首位字符
  • Table Size Detection:检测模型能否正确解析结构化数据,例如有几行几列
  • Merged Cell Detection:检测模型能否识别出合并表格结构
  • Cell Lookup & Reverse Lookup:检测模型能否正确抽取指出value对应cell的位置,或者某位置cell的取值
  • Column & Row Retrieval:检测模型能否正确抽取出某行,某列的所有取值

基于上述的7个子任务,论文首先对比了不同的表格数据表征形式的效果差异。这里论文实验了包括JSON,3种不同的标记语言markdonw,XML,HTML,以及在众多表格任务中常见的使用“|”分隔符直接分割表的NL+Sep模式。上面的Dater和Chain of Table就是NL+Sep。以下为子任务的对比结果

image

以上实验数据不难得到两个结论

  • 标记语言包括markdown,XML,HTML的效果是显著优于NL+SEP的
  • 在众多标记语言中HTML来表征表格的效果是最好的

之前在看新加坡Prompt大赛冠军秘籍时就发现,prompt中不同内容的分割符,和结构化数据例如标签,表格等数据使用XML,HTML等标记语言进行表征,效果是显著更好的,例如使用XML表征分类标签在我们的任务上分类的结果更稳定,模型更不容易在分类前后给你瞎逼逼。再例如用HTML表征表格,模型定位到具体数值的准确率也会更高。

之后论文以HTML作为基准,进一步对其他prompt细节进行了测试,如下

image

以上消融实验比较明显的结论也有两个

  • w/o 1-shot: one-shot相当重要,模型理解结构化表格数据很大程度上依赖于one-shot,去掉one-shot准确率直接掉了30%
  • w/o change order顺序很重要,把问题和描述放到表格后面会带来6.8%的效果下降,可能因为模型可以基于描述和问题有针对性的理解后面的表格数据
  • 其他表格格式描述,分割符之类的影响较低,可能是因为HTML类标记文本本身已经有很好的结构化表征

论文还提出了self-augmented prompt,个人感觉略微缺乏针对性一些,感兴趣的朋友自己去看细节吧~

微调

除了以上利用GPT的Prompt方案,我们再介绍两个微调方案:Table Llama和TableLLM

Table Llama

  • TableLlama: Towards Open Large Generalist Models for Tables

Table Llama是很典型的垂直领域微调方案。论文设计了TableInstruct微调数据集,筛选了总共包括14个表格数据集的总共11类任务。其中训练集选择8个数据集和8类任务,测试集为6个数据集和4类任务,来检测模型在样本外任务类型上的泛化效果。数据集和任务分布如下

image

微调数据的构成就是Instruction+Input+Quesiton为输入,Response为输出。这里论文使用了NL+SEP来表征表格数据,并加入了表格任务的描述。考虑表格数据的长度往往超过4K,这里选用LongLora微调后的7B模型为基座,

image

效果上分别看下样本内和样本外任务上的效果提升,这里Base使用了LongLora微调后的7B,以及对比了GPT3.5和GPT4(采样了部分样本)。在样本内任务上TableLlama能超越GPT4,在样本外任务上TableLlama相比Base有显著提升,但部分任务效果不及GPT4

image

image

TableLLM

TableLLM论文做了以下的用户调研,更充分地了解了用户对于表格任务究竟有哪些真实需求。除了前面Table Llama涵盖的TableQA,Table Extraction,Dialogue,Fact Verfication等传统Table2Text任务之外,还包含了更多操作类任务,例如表格匹配,表格绘图。

image

整体上论文把表格数据涉及到的操作类型分成了Query,Update,Merge和Chart四大类,这四种操作在不同类型的表格数据上侧重不同,在纯表格数据上四种操作类型都会有,更接近现在众多ChatBI在做的方向,更多是code-driven。而在文本中内嵌的表格数据上query查询是主要操作,更多用于像RAG的场景,依赖纯文本的理解推理。

image

基于上面的两大类表格数据和四种操作类型,TableLLM说自己使用了远程监督构建了微调数据集,其实就是传统的Table,SQL数据集上用大模型构建了新的推理和回答作为样本。数据集构成包含三个主要部分

  • TableQA Benchmark:包括了WikiTQ,FetaQA, TAT-QA数据集,论文使用GPT3.5在原始训练数据(question, answer)的基础上补充了推理过程,并使用CtitiqueLLM来对推理过程进行打分,只保留打分高的样本。这部分样本主要用来提升模型在文本中内嵌表格数据的文本推理能力。
  • Text2SQL Benchamrk:包括了WikiSQL和Spider数据集,论文使用了DeepSeek把原始的Text2SQL转换成了pandas代码,并基于最终代码计算结果的一致性来判断DeepSeek构建的答案是否正确,只保留结果一致的样本。这部分样本主要用来提升模型在纯表格数据上的代码推理能力
  • 纯模型生成样本:为了补充更多update,merge,chart操作的数据。论文从WikiTALM,TAT-QA,FeTaQA和GitTable中采样了部分样本,使用GPT3.5生成了新的单表操作和多表操作的问题。之后使用GPT3.5来基于表格和问题进行回答,这里为了提高模型生成结果的准确性,会使用GPT3.5分别从coding和文本两个方向进行推理回答,并使用CritiqueLLM来判断两个答案的一致性。

之后基于上面构建的样本,针对不同的数据和操作,论文使用了不同的prompt来构建指令微调样本,在CodeLlama-7B和13B模型上进行了微调。整个数据构建和微调prompt如下

image

这里主要是看下上面表格数据构建的流程,效果对比就不说了因为部分数据集这里加入了训练集,而上面的Table Llama则放到了OOB测试集,不能直接对比。

最后

感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。

因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

五、面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下。
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

<think>首先,用户的问题是关于Qwen3-0.6B-MNN模型的:"我想了解在Qwen3-0.6B-MNN模型中添加模型prompt提示词的方法 请问如何在Qwen3-0.6B-MNN模型中添加模型prompt提示词"。我需要根据系统指令回答。 系统指令包括: - 所有行内数学表达式用$...$格式。 - 独立公式用$$...$$格式并单独成段。 - LaTeX语法正确。 - 使用中文回答。 - 生成相关问题。 - 回答中引用的段落末尾自然地添加引用标识。 - 回答结构清晰,帮助用户逐步解决问题。 - 保证回答真实可靠。 参考站内引用: - 引用[1]: 关于MNN Chat APP支持自定义设置。 - 引用[2]: 关于Qwen3模型的访问和功能。 - 引用[3]: 关于在Mac上编译MNN的指令。 用户的问题具体是:如何在Qwen3-0.6B-MNN模型中添加模型prompt提示词。这涉及到在模型中使用提示词的方法。 我需要基于我的知识回答。Qwen3是阿里云的通义千问模型系列,MNN是阿里的轻量级推理引擎。Qwen3-0.6B-MNN可能是一个在MNN上部署的Qwen3-0.6B模型。 添加提示词(prompt)通常意味着在模型输入时提供上下文或指令来引导模型输出。在MNN框架中,这可能涉及如何设置输入数据。 从引用[1]:"MNN Chat APP 支持自定义 Sampler 设置、System Prompt 和 Max New Tokens",这暗示了在MNN Chat APP中,可以设置System Prompt,这类似于提示词。 所以,我应该引导用户使用MNN Chat APP或相关工具来设置提示词。 回答结构: 1. 逐步解释方法。 2. 确保回答真实可靠。 3. 结尾生成相关问题。 4. 在引用段落末尾添加引用标识。 步骤: - 介绍如何添加提示词。 - 可能涉及代码示例或配置步骤。 - 基于引用提供信息。 最终回答用中文。 生成相关问题:在回答末尾添加§§相关问题§§部分。 我的回答结构: 1. 开头解释添加提示词的方法。 2. 提供具体步骤或代码示例。 3. 引用相关部分。 4. 生成相关问题。 具体内容: - 添加提示词可以通过设置System Prompt来实现,如引用[1]所述。 - 在MNN Chat APP中,用户可以在设置中自定义System Prompt- 如果用户是开发者,可能需要通过API或代码设置。 代码示例:如果可能,提供一个简单的代码片段,但用户问题不是代码导向的,而是方法导向。 用户提到"Qwen3-0.6B-MNN模型",所以可能涉及在MNN框架中使用模型。 从引用[3],有编译MNN的指令,但这不是直接相关的。 核心方法:在输入时添加提示词作为模型输入的一部分。 在大型语言模型中,提示词通常作为文本输入的前缀。 在MNN中,当加载模型时,输入数据可能是一个字符串,用户可以在其中包含提示词。 但更具体地说,引用[1]提到"System Prompt",这可能是APP中的一个功能。 所以,我应该建议使用MNN Chat APP或类似工具。 回答: - 在MNN Chat APP中,您可以直接在设置中配置System Prompt来添加提示词。 - 对于代码实现,您需要在模型输入时拼接提示词文本。 为了清晰,分步骤解释。</think>### 在Qwen3-0.6B-MNN模型中添加提示词的方法 在Qwen3-0.6B-MNN模型中添加提示词(prompt)是一种常见的做法,用于引导模型生成更符合特定需求的输出。Qwen3-0.6B-MNN模型是基于阿里云通义千问的轻量级模型,使用MNN(Mobile Neural Network)推理引擎部署。添加提示词主要通过以下两种方式实现,具体取决于您的使用场景(如使用MNN Chat APP或代码集成)。下面我将逐步解释方法,确保回答真实可靠。 #### 步骤1: 理解添加提示词的基本原理 提示词是模型输入的一部分,用于提供上下文或指令。例如,如果您希望模型生成一个关于“天气”的回答,提示词可以是“请描述今天的天气情况:”。在Qwen3模型中,输入数据通常是一个文本字符串,格式为: $$ \text{输入} = \text{系统提示} + \text{用户输入} $$ 其中,系统提示(System Prompt)是固定的引导文本,用户输入是动态内容。在MNN框架中,这需要正确设置输入张量或通过API配置。 #### 步骤2: 使用MNN Chat APP添加提示词(推荐给非开发者) 如果您使用MNN Chat APP(一个支持Qwen3模型的聊天应用),添加提示词非常简单: 1. 打开MNN Chat APP,并选择Qwen3-0.6B-MNN模型。 2. 在设置菜单中,找到“System Prompt”选项(引用[1]提到该功能支持自定义)。 3. 输入您的提示词,例如:“你是一个助手,请用中文回答所有问题。”。 4. 保存设置后,模型在生成响应时会自动将提示词作为前缀应用到用户输入中。 - 例如,用户输入“解释量子力学”,模型实际处理的是“你是一个助手,请用中文回答所有问题。解释量子力学”。 5. 此方法无需代码,适合快速测试和日常使用。更多细节可参考Qwen3文档(引用[2])。 #### 步骤3: 通过代码集成添加提示词(适合开发者) 如果您在本地或代码中部署Qwen3-0.6B-MNN模型(如在Python或C++中使用MNN),需要通过编程方式在输入数据中拼接提示词。以下是基于MNN框架的简单示例(使用Python伪代码): - 首先,确保您已正确编译MNN,并支持LLM功能(引用[3]提供了编译指令)。 - 然后,在加载模型后,创建输入数据时直接包含提示词: ```python import MNN import numpy as np # 加载模型(假设模型路径为'qwen3-0.6b-mnn.mnn') interpreter = MNN.Interpreter('qwen3-0.6b-mnn.mnn') session = interpreter.createSession() # 定义提示词和用户输入 system_prompt = "你是一个专业助手,请用简洁语言回答。" # 您的自定义提示词 user_input = "解释快速排序算法。" # 用户实际输入 # 拼接完整输入 full_input = system_prompt + user_input # 将输入转换为模型所需的张量格式(假设输入ID为0) input_tensor = interpreter.getSessionInput(session) # 注意:Qwen3模型输入通常是token IDs,需先分词;这里简化处理,实际需调用tokenizer # 伪代码:token_ids = tokenizer.encode(full_input) # 实际中,使用Hugging Face的tokenizer或MNN内置工具 # 设置输入数据(示例为浮点数组) input_data = np.array([...], dtype=np.float32) # 替换为实际token IDs input_tensor.copyFrom(input_data) # 运行模型推理 interpreter.runSession(session) # 获取输出 output_tensor = interpreter.getSessionOutput(session) output_data = output_tensor.getData() # 解码输出为文本 response = tokenizer.decode(output_data) print(response) ``` - **关键点**: - 提示词必须在输入序列的开头拼接。 - Qwen3模型使用类似GPT的架构,输入长度有限制(例如4096 tokens),需确保提示词+用户输入不超过该限制。 - 在实际部署中,您可能需要使用Hugging Face的`transformers`库进行分词(引用[2]提到Qwen3支持Hugging Face集成)。 - 如果使用MNN的LLM功能,编译时需开启相关选项(如`-DMNN_BUILD_LLM=true`,引用[3])。 #### 注意事项 - **性能影响**:添加过长提示词可能增加推理时间,因为模型需要处理更多tokens。建议提示词长度控制在50-100字符内。 - **模型兼容性**:Qwen3-0.6B-MNN是量化版本,添加提示词不会改变模型权重,只影响输入数据。 - **最佳实践**:测试不同提示词的效果,例如使用“请用中文回答”来强制输出语言(引用[1]表明这能调节输出风格)。 - **参考资源**:更多实现细节可访问Qwen官方文档(引用[2])或MNN GitHub仓库。 通过以上方法,您可以灵活地在Qwen3-0.6B-MNN模型中添加提示词,无论是通过APP还是代码。如果遇到具体问题(如分词错误),建议查阅Qwen3的快速入门指南[^2]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值