本文是LLM系列文章,针对《Rethinking Tokenization: Crafting Better Tokenizers for Large Language Models》的翻译。
摘要
标记化显著影响语言模型的性能。本文追溯了标记器从单词级到子单词级的演变,分析了它们如何平衡标记和类型,以增强模型的适应性,同时控制复杂性。尽管像字节对编码(BPE)这样的子词标记器克服了许多词标记器的限制,但它们在处理非拉丁语言时遇到了困难,并且在很大程度上依赖于大量的训练数据和计算资源来掌握多词表达式(MWE)的细微差别。本文认为,标记器不仅仅是技术工具,还应该从人类语言处理的认知科学中获得灵感。然后,本研究介绍了认知科学中的“最小努力原则”,即人类自然会寻求减少认知努力,并讨论了这一原则对标记器开发的好处。基于这一原理,本文提出了少即优(LiB)模型可能是LLM标记器的一种新方法。LiB模型可以自主学习由子词、单词和MWE组成的综合词汇,这有效地减少了标记和类型的数量。比较评估表明,LiB标记器优于现有的单词和BPE标记器,为标记器的开发提供了一种创新的方法,并暗示了未来基于认知科学的标记器更有效率的可能性。
引言
优化未来的标记器
总结
本文探讨了大型语言模型(LLM)标记器的当前选择和未来优化,特别是在处理复杂语言(如中文)时。总体而言,与单词标记化相比,子单词标记化作为一种平衡技术,显著减少了类型的数量,但仅略微增加了标记的数量,有效地解决了词汇外(OOV)问题,并增强了模型的泛化能力。然而,这种方法在控制一些非拉丁语言(如汉语)中的标记数量,以及捕捉语言的微妙语义和习语含义方面存在局限性。
大多数LMs中缺乏MWE反映了当前NLP领域的盲点。尽管MWE显著增加了类型的数量,并且当前的模型可以通过大量的数据/计
本文探讨了大型语言模型(LLM)的标记器优化,尤其是处理复杂语言时的挑战。提出认知科学的“最小努力原则”对设计更高效标记器的重要性,介绍LiB模型,该模型能学习和遗忘,平衡子词、单词和多词表达式的词汇,优于现有标记器。
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



