大语言模型之十二 SentencePiece扩充LLama2中文词汇

最新推荐文章于 2025-04-14 09:37:53 发布

shichaog

最新推荐文章于 2025-04-14 09:37:53 发布

阅读量2.4k

点赞数

分类专栏：神经网络&人工智能文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/shichaog/article/details/133325234

版权

神经网络&人工智能专栏收录该内容

31 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

大语言模型的发展潜力已经毋庸置疑了，如何让中文大语言模型更适合中小公司使用这是一道难题。在模型的选择上我们倾向于选择国外的LLama或者BLoom之类的，而不是百川之类的中文大模型，原因在于从基建到框架到数据国外的开源资料非常多，比如Huggingface Transformer、微软的DeepSpeed、meta的LLama、Pytorch，Google的colab、TensorFlow、BERT，这些公司提供了大量开源的技术工具以及成果。
国外的人才密度高，引领着大语言的发展，所以从国外优秀的开源大语言模型入手是非常不错的途径，减小了学习成本，也减少了公司的使用成本。
但是国外主要是英语系为主，对中文支持不是特别理想，比如原版LLaMA模型的词表大小是32K，LLaMA词表中的中文token比较少（只有几百个，常用汉字都有三千个）。LLaMA 原生tokenizer词表中仅包含少量中文字符，在对中文字进行tokenzation时，一个中文汉字往往被切分成多个token（2-3个Token才能组合成一个汉字），显著降低编解码的效率。
我试过源码中文LLama的推理，效果差很多，但是从头训练又是个庞大的工程，预训练数据集动辄几个T，成本太高，所以在现有优秀的模型基础上扩充中文词汇以及中文训练集以更好支持中文场景是个不错的选择。值得一提的是多语言模型（如ÿ

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

shichaog 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。