文档抽取进入「说人话」时代：用Prompt就能提取发票、合同、简历的关键信息

原创于 2025-07-09 10:00:00 发布 · 2k 阅读

CC 4.0 BY-SA版权

文章标签：

随着AI时代的到来，尚未完全实现的数字化转型向我们提出了更严峻的考验：如何破解物理世界与数字系统、AI Agent之间的认知断层？

根据《福布斯》技术委员会的研究，企业80%的高价值数据仍封存于非结构化文档中，全球企业每年都要因手动处理发票、合同、报告产生代价高昂的效率损耗。在此情况下，文档抽取能力（将PDF、图片、扫描件等非结构化文档中的信息自动提取并转化为结构化数据如JSON）成为一项极其重要的基础能力，它将PDF扫描件、医疗影像报告、物流单据等“不可用数据”实时转化为可计算、可分析的燃料，重构数据价值链：

例如，金融贷款/信用卡流程：改变人工核验方式，自动从身份证、收入证明、银行流水、税单中提取关键信息（姓名、ID、收入、支出、账户信息），加速审批流程。
医疗健康：实现病历数字化与信息提取，从纸质或扫描病历、检验报告、影像报告中提取患者信息、诊断结果、用药记录、检查指标等，构建结构化电子健康档案。
供应链与物流：自动识别和提取供应商发票、采购订单上的商品名称、数量、单价、总金额、税号、交货日期等，实现自动化对账和支付。

这些场景背后，是企业对非结构化数据自动化处理的刚需。文档抽取工具在前AI时期便已形成常规工作流程，让数据工程师能够通过工具调用，实现提取、后处理、数据库整合等操作。然而，当LLM应用普及化，技术门槛不断降低，传统工作流程的不便之处也日益明显。

常规文档抽取工具的工作流程与痛点

典型抽取工作流程首先要求详细的字段配置，对于信息量大的情况，还需进行复杂分组。

接着，如要处理输出数据格式，一般需要数据工程师编写后处理脚本，通过命令或代码来实现。

从文档中提取出来的原始文本通常是字符串，要满足特定格式要求，比如日期统一为YYYY-MM-DD，金额去除货币符号并转为浮点数，电话号码添加国家代码，几乎都需要额外的处理步骤。

这些后处理逻辑需要编写代码（Python、JavaScript等）或使用特定的脚本/表达式语言（如正则表达式、XPath、JSONPath）来实现。例如：

用正则表达式(\d{4})-(\d{2})-(\d{2})匹配并重组日期。
用字符串操作去除金额前的$或€符号，再用parseFloat()转换。
用条件逻辑判断并添加电话号码的国家代码。

繁复的使用方式造成了当前抽取工具的痛点：

配置复杂耗时：为每种新的文档类型（甚至同一类型不同供应商的变体）创建和维护详细的抽取规则（坐标、关键词、正则）是一项极其繁琐、技术性强且耗时的工作，需要专业的数据工程师或商业分析师投入大量精力。
技术门槛高：熟练掌握正则表达式、坐标定位、可能需要的编程技能（用于后处理）对普通业务用户来说门槛太高，配置和维护通常依赖IT或专业团队。
字段变更/新增不灵活：当业务需要新增一个抽取字段或修改现有字段的格式要求时，需要重新走一遍配置流程，不够敏捷。

而现在，应用LLM能力的新一代工具，让文档抽取只需一条清晰的自然语言指令——像对话一样描述需求，即可输出结构化JSON数据。业务人员不再需要付出高认知成本，就能便捷使用自动化工具。