parserLLM：下一代自然语言处理利器-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00513/article/details/147235246

parserLLM：下一代自然语言处理利器

parserllm Use context-free grammars with an LLM 项目地址: https://gitcode.com/gh_mirrors/pa/parserllm

项目介绍

parserLLM 是一个开源项目，它使用上下文无关文法（CFG）和解析器生成器来确定大型语言模型（LLM）生成的有效后续标记。该项目是对 ReLLM 的扩展，不仅可以处理正则表达式，还能处理上下文无关文法。parserLLM 旨在为自然语言处理领域带来新的突破，使得语言模型的生成更加精准和有效。

项目技术分析

parserLLM 的核心技术基于上下文无关文法和解析器生成器。在自然语言处理中，上下文无关文法能够描述语言的语法规则，而解析器生成器则可以自动生成解析器，用于识别输入文本中的语法结构。

工作原理

首先，定义一个上下文无关文法。以下是简化版的 JSON 语法（EBNF 形式）的一个例子：

start: value

value: object | array | string | "true" | "false" | "null"

array: "[" [value ("," value)*] "]"

object: "{" [pair ("," pair)*] "}"

pair: string ":" value

string: ESCAPED_STRING

%import common.ESCAPED_STRING
%import common.SIGNED_NUMBER
%import common.WS

%ignore WS

接下来，使用解析器生成器来解析语言。parserLLM 选择了 Lark 作为解析器生成器，因为它使用 Python 编写，且相对容易使用。

然后，将部分输出通过解析器生成器运行。初始时，这只是空字符串。解析器会返回所有可能的后续标记。例如，有效的前缀标记可以是任何“值”，包括数组、字符串、布尔值和空值。

将这些标记编译成正则表达式，然后通过 ReLLM 生成可能的后续标记。ReLLM 会压缩不匹配字符的 logit 值，使得语言模型只考虑有效部分或完整的后续标记。

重复迭代直到达到最大标记数，或者解析器检测到下一个标记是空字符串或停止标记。