MedicalGPT中文词表扩充技术详解

郑微殉

于 2025-06-10 09:16:51 发布

阅读量344

点赞数 3

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gitblog_01110/article/details/148551872

MedicalGPT中文词表扩充技术详解

MedicalGPT MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型，实现了包括增量预训练、有监督微调、RLHF(奖励建模、强化学习训练)和DPO(直接偏好优化)。项目地址: https://gitcode.com/gh_mirrors/me/MedicalGPT

引言

在自然语言处理领域，特别是针对中文的预训练语言模型，词表(tokenizer)的质量直接影响模型对文本的理解能力。MedicalGPT项目针对医疗领域特点，专门优化了中文词表，显著提升了模型对专业术语和常见中文表达的切分效果。本文将深入解析这一技术实现。

为什么需要扩充中文词表

传统的中文分词器在处理专业领域文本时存在明显不足：

无法正确切分专业术语（如"冠状动脉"可能被错误切分）
对专有名词识别率低（如人名"慕容复"被拆分为单字）
简繁体转换能力不足
数字与单位组合处理不当（如"10斤"被拆分为"1"、"0"、"斤"）

MedicalGPT通过扩充和优化词表，有效解决了这些问题，为后续模型训练提供了更好的文本表示基础。

词表构建技术方案

1. 基于SentencePiece的训练

MedicalGPT采用SentencePiece(SPM)作为基础分词框架，在大规模中英文语料上进行训练：

语料选择：包含中英文无监督数据和平行语料
词表大小：通常设置为2000以上，确保能覆盖常见领域词汇
分词效果：实现字词结合的分词方式，平衡颗粒度与语义完整性

训练后的分词器能够正确切分"病毒"、"感染"等医疗领域词汇，以及"慕容复"等人名。

2. 多源词表融合

为提升分词效果，MedicalGPT融合了多个优质词表资源：

百川中文词表：提供高覆盖率的中文简繁体识别能力
结巴分词高频词表：选取前20000高频词，优化专有名词切分

这种融合策略既保证了基础汉字的识别率，又提高了对专业术语和常见词汇的处理能力。

分词效果对比

通过实际文本的分词对比，可以清晰看到优化效果：

测试文本示例： "慕容复来到河边，姑苏慕容氏在外面丢了人。1号店一周岁了，我们一古脑儿买了10斤零食。"

原始LLaMA分词结果：将"慕容复"拆分为多个unicode编码，无法识别完整人名；"一古脑儿"被错误切分；数字"10"与单位"斤"分离。

MedicalGPT分词结果：正确识别"慕容复"、"姑苏慕容氏"等专有名词；保持"一古脑儿"为完整短语；将"10斤"作为合理组合保留。

增量预训练技术要点

完成词表扩充后，MedicalGPT采用增量预训练策略使模型适应新词表：

参数设置：在预训练(PT)阶段添加--modules_to_save embed_tokens,lm_head参数，专门调整与新词表相关的嵌入层和输出层
训练策略：保持其他网络层参数相对固定，专注于词表相关的参数优化
阶段过渡：后续的监督微调(SFT)阶段不再需要特殊参数，模型已具备良好的词表适应能力

技术优势总结

MedicalGPT的词表扩充方案具有以下显著优势：

领域适配性：特别优化医疗领域术语处理
分词准确性：提升专有名词和常见表达的识别率
训练效率：增量预训练策略平衡了效果与资源消耗
扩展性：方法论可推广到其他专业领域

实践建议

对于希望在MedicalGPT基础上进一步优化词表的开发者，建议：

收集更多领域相关语料进行SPM训练
可考虑融入领域专业词典
词表大小需根据实际需求平衡，过大可能影响模型效率
增量训练时注意学习率设置，避免破坏已有知识表示

通过这种系统化的词表优化方案，MedicalGPT显著提升了中文医疗文本的处理能力，为后续的语义理解和生成任务奠定了坚实基础。

MedicalGPT MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型，实现了包括增量预训练、有监督微调、RLHF(奖励建模、强化学习训练)和DPO(直接偏好优化)。项目地址: https://gitcode.com/gh_mirrors/me/MedicalGPT

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

郑微殉 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。