20、自然语言处理中分词器、数据集与语义角色标注的深度解析

最新推荐文章于 2025-12-04 16:52:31 发布

a1b2c3d

最新推荐文章于 2025-12-04 16:52:31 发布

阅读量25

点赞数

CC 4.0 BY-SA版权

分类专栏：解密Transformer：NLP革命文章标签：自然语言处理 NLP 分词器

本文链接：https://blog.youkuaiyun.com/a1b2c3d/article/details/151127306

解密Transformer：NLP革命专栏收录该内容

37 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

自然语言处理中分词器、数据集与语义角色标注的深度解析

1. 分词器与数据集匹配问题

在自然语言处理（NLP）中，分词器和数据集的匹配是一个关键问题，其核心原因在于多义词现象。以不同分词器为例：
- word2vec 分词器 ：其词典可能不包含像“amoeboid”这样的生僻词，从而产生未知标记。
- 字节级 BPE 分词器 ：能获得更好的整体结果，因为它排除的同一单词的变体更少，例如“go”和“going”。

然而，像“amoeboid”中的“am”标记会在低层次引入多义词问题。“am”可以是一种前缀、“I am”中的单词，或者像“ambush”中的子词。注意力层可能会将一个标记中的“am”与另一个“am”关联起来，从而创建不存在的关系，这定义了自然语言理解（NLU）中多义词的核心问题。

为了验证变压器模型提供的 NLU 水平，我们可以使用探测任务。以 OpenAI GPT - 3 为例，我们来看看它对“amoeboid”这个词的反应：
- 当询问“amoeboid”的含义时，GPT - 3 输出它是一个名词，而实际上“amoeboid”是一个形容词。
- 进一步询问“amoeboid”是名词还是形容词，GPT - 3 仍给出错误答案。