GitHub项目:Chinese-LLaMA-Alpaca
由于原版LLaMA对中文的支持非常有限,本项目在原版LLaMA的基础上进一步扩充了中文词表。
- 在通用中文语料上训练了基于sentencepiece的20K中文词表并与原版LLaMA模型的32K词表进行合并
- 排除重复的token后,得到的最终中文LLaMA词表大小为49953
- 需要注意的是,在fine-tune阶段Alpaca比LLaMA多一个pad token,所以中文Alpaca的词表大小为49954
更多关于中文词表扩充的动机,可参考