使用BPE算法处理未登录词

最新推荐文章于 2025-07-07 23:48:20 发布

原创最新推荐文章于 2025-07-07 23:48:20 发布 · 5.6k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#Byte Pair Encoding #BPE #未登录词 #分词 #词法分词

AI 同时被 2 个专栏收录

68 篇文章

订阅专栏

NLP

60 篇文章

订阅专栏

本文深入讲解了BPE算法的工作原理，展示了如何通过迭代合并高频符号对来优化词典，解决最大匹配分词算法中的未登录词问题。通过具体示例说明了BPE算法在分词准确性上的提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

BPE算法的输入是原始字典，其中每个单词被表示成一串字符，BPE算法迭代的执行k次，每次选择一个出现频率最高的符号对进行合并，生成一个新的符号，注意这种合并是不超过单词边界的。
例如原始词典中有张晨光和张晨磊两个单词，频数均为3，但是没有出现张晨

张晨光:3
张晨磊:3

所以我们在使用最大匹配算法进行分词时，如果使用该字典，就会造成张晨被错误分割为张和晨两个词的情况，因为最大匹配算法无法正确处理未登录词：

max match cut result:
我/是/张/晨/，/我/爱/自然语言/处理

假设我们使用BPE算法时，k=1，并且第一次选中的符号对是（“张”，“晨”），那么我们将其合并后，会生成新的符号“张晨”，并且其出现的频数为6. 经过BPE算法处理后的词典中，将会包含原始词典中的单词和新生成的符号，那些没有合并的单字符符号也会包括其中，新的词典中会包括下面三个词：

张晨光:3
张晨磊:3
张晨:6

此时我们再使用最大匹配算法进行分词，并将经过BPE算法处理后新词典作为输入，我们就能得到正确的分词结果了（未登录词“张晨”被正确识别了）：

max match cut(with BPE) result:
我/是/张晨/，/我/爱/自然语言/处理

BPE算法的核心代码如下：

def bpe(dic_of_words_with_space, num_merges):
    dic_to_merge = dic_of_words_with_space
    dic_merged = {}
    for i in range(num_merges):
        pairs = get_pair_stats(dic_of_words_with_space, char_separator=constants.space)
        # best_pair = max(pairs, key=pairs.get)
        best_pair = ("张", "晨")
        dic_merged = merge_vocab(best_pair, dic_to_merge)
        dic_to_merge = dic_merged
    return dic_merged

注意我们这里故意把best_pair设置成("张", "晨")以方便演示算法效果，其完整代码可以在我的github上下载.