Microsoft Guidance项目中的Token Healing技术解析-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00573/article/details/148362713

Microsoft Guidance项目中的Token Healing技术解析

guidance 项目地址: https://gitcode.com/gh_mirrors/gui/guidance

什么是Token Healing

Token Healing是Microsoft Guidance项目中提出的一项创新技术，主要用于解决语言模型在提示边界处产生的tokenization（分词）问题。这项技术通过调整生成过程的起始点，确保生成的文本能够与提示部分形成自然的token组合，从而更准确地传达用户意图给模型。

为什么需要Token Healing

要理解Token Healing的重要性，我们需要先了解语言模型如何处理文本：

Tokenization基础：现代语言模型（如GPT系列）并不直接处理原始文本，而是先将文本分割成称为"token"的片段。这些token通常类似于单词，但有时可能是一个字符或部分单词。
BPE编码问题：模型使用字节对编码(BPE)等算法将输入转换为token序列。这种编码在训练时工作良好，但在推理时可能导致提示边界处的分词问题。
边界对齐问题：当提示文本的结束与生成文本的开始不匹配时，会导致非最优的token组合，影响模型理解。

实际案例解析

考虑以下示例：

提示："This is a "
生成："fine day."

如果分别对提示和生成部分进行分词，结果与对整个句子进行分词不同。Token Healing确保我们获得的是最优的、与训练数据一致的token组合，从而更好地传达意图给模型。

Token Healing的工作原理

Token Healing通过以下步骤工作：

回退机制：在生成开始前，回退一到多个token。
前缀约束：约束生成的第一个token必须与提示的最后一个token形成合理的组合。
优化编码：确保最终的文本编码与模型在训练时看到的编码方式一致。

这种方法消除了提示边界带来的分词异常，让开发者可以更自然地表达提示，而不必担心边界效应。

实际应用示例

使用Token Healing的情况

import guidance
from guidance import gen, models

gpt2 = models.Transformers("gpt2", temperature=0.8)
gpt2 += "The url of Google is http:" + gen(max_tokens=5)

输出结果会正确生成URL格式："http://www.google."