NLP中的BPE（byte pair encoding）分词算法【subword 切词】

u013250861

已于 2023-10-27 23:35:45 修改

阅读量748

点赞数

分类专栏： NLP/自然语言处理文章标签：自然语言处理人工智能深度学习

于 2022-06-29 00:25:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u013250861/article/details/125368686

版权

NLP/自然语言处理专栏收录该内容

32 篇文章

订阅专栏

算法提出的问题背景

2016年左右（改论文发表于2016）Neural machine translation(NMT)中有着一个众所周知的问题——稀有词与未知词的翻译问题。一般来说，神经网络中的词表被限制在30000-50000个词汇，但是对于翻译来说，各种词汇都可能出现（比如英语中的复合词汇，网络新词等），这种限制无疑使问题解决得效果大打折扣。对于英语来说，一个单词可能有不同时态，进行时，过去时，一般现在时等，比如look, looking, looks, looked这些单词都表示的意思，但是传统处理手段就是在词表中为这些单词各开一个位置，这不仅造成了冗余，还削弱了它们之间的相关性。
基于上述问题，论文中提出将一个单词用可变长度表示，也就是关注于更小的分词单元（subword unit）似乎更加有吸引力。对于word-level的NMT模型，在遇到新词以后往往需要借助查阅字典的手段（15年左右被提出的一种方法，它假设source和target中的词汇是一一对应的），论文作者认为这种假设在很多情况不适用，事实上也的确如此。此外，这种模型没法翻译或者生成没见过的单词。一些学者提出将未知的单词直接从source language复制到target language的翻译中，这对于名字来说确实很合理，但是在其他情况也许就不适用了。

算法希望实现的目标

创建一个subword-level的NMT模型，对于稀有词和未知词的翻译能够自己结果，能够生成在训练时没有见过的新词，能够从subword representations中学习复合词和音译词。

参考资料：
理解NLP最重要的编码方式 — Byte Pair Encoding (BPE)，这一篇就够了
 NLP中的BPE（byte pair encoding）分词算法
 BPE(Byte Pair Encoding)算法

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。