自然语言处理中分词器、数据集与语义角色标注的深度解析
1. 分词器与数据集匹配问题
在自然语言处理(NLP)中,分词器和数据集的匹配是一个关键问题,其核心原因在于多义词现象。以不同分词器为例:
- word2vec 分词器 :其词典可能不包含像“amoeboid”这样的生僻词,从而产生未知标记。
- 字节级 BPE 分词器 :能获得更好的整体结果,因为它排除的同一单词的变体更少,例如“go”和“going”。
然而,像“amoeboid”中的“am”标记会在低层次引入多义词问题。“am”可以是一种前缀、“I am”中的单词,或者像“ambush”中的子词。注意力层可能会将一个标记中的“am”与另一个“am”关联起来,从而创建不存在的关系,这定义了自然语言理解(NLU)中多义词的核心问题。
以下是不同分词器处理结果的对比表格:
| 分词器类型 | 处理结果 | 存在问题 |
| — | — | — |
| word2vec 分词器 | 可能产生未知标记 | 词典覆盖词汇有限 |
| 字节级 BPE 分词器 | 整体结果较好 | 存在多义词关联问题 |
为了验证变压器模型提供的 NLU 水平,我们可以使用探测任务。以 OpenAI GPT - 3 为例,我们来看看它对“amoeboid”这个词的反应:
- 当询问“amoeboid”的含义时,GPT - 3 输出它是一个名词,而实际上“amoeboid”是一个形容词。
- 进一步询问“amoeboid”是名词还是形容词,GPT - 3 仍给出错误答案。
超级会员免费看
订阅专栏 解锁全文
1048

被折叠的 条评论
为什么被折叠?



