20、自然语言处理中分词器、数据集与语义角色标注的深度解析

自然语言处理中分词器、数据集与语义角色标注的深度解析

1. 分词器与数据集匹配问题

在自然语言处理(NLP)中,分词器和数据集的匹配是一个关键问题,其核心原因在于多义词现象。以不同分词器为例:
- word2vec 分词器 :其词典可能不包含像“amoeboid”这样的生僻词,从而产生未知标记。
- 字节级 BPE 分词器 :能获得更好的整体结果,因为它排除的同一单词的变体更少,例如“go”和“going”。

然而,像“amoeboid”中的“am”标记会在低层次引入多义词问题。“am”可以是一种前缀、“I am”中的单词,或者像“ambush”中的子词。注意力层可能会将一个标记中的“am”与另一个“am”关联起来,从而创建不存在的关系,这定义了自然语言理解(NLU)中多义词的核心问题。

以下是不同分词器处理结果的对比表格:
| 分词器类型 | 处理结果 | 存在问题 |
| — | — | — |
| word2vec 分词器 | 可能产生未知标记 | 词典覆盖词汇有限 |
| 字节级 BPE 分词器 | 整体结果较好 | 存在多义词关联问题 |

为了验证变压器模型提供的 NLU 水平,我们可以使用探测任务。以 OpenAI GPT - 3 为例,我们来看看它对“amoeboid”这个词的反应:
- 当询问“amoeboid”的含义时,GPT - 3 输出它是一个名词,而实际上“amoeboid”是一个形容词。
- 进一步询问“amoeboid”是名词还是形容词,GPT - 3 仍给出错误答案。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值