TensorFlow深度学习实战——字符嵌入、子词嵌入、句子嵌入和段落嵌入
0. 前言
在自然语言处理中,嵌入 (Embedding
) 技术是将文本转化为数值向量的核心方法,使计算机能够理解和处理语言中的语义信息。根据文本处理的粒度不同,除了词嵌入外,还包括字符嵌入、子词嵌入、句子嵌入和段落嵌入。这些嵌入技术使得计算机能够以不同的粒度理解和处理文本中的语义信息,从而为各种自然语言处理任务提供强大的支持。
1. 字符嵌入
字符嵌入 (Character Embedding
) 最早由 Xiang
和 LeCun
提出,相较于词嵌入具有以下优势:
- 字符词汇表规模较小:例如,英语的字符词汇表包含大约
70
个字符(26
个字母,10
个数字和其余特殊字符),这使得字符嵌入模型也相对小巧紧凑 - 与提供大但有限词汇表的词嵌入不同,字符嵌入不存在字符表外的问题,因为任何单词都可以用字符表表示 <