- 博客(2)
- 收藏
- 关注
原创 微调NLLB之前,我是如何清洗2亿条维吾尔语↔中文语料的?——从脏数据到970万高质句对的实战手记
本文分享了从2亿条维吾尔语-中文平行语料中清洗出970万高质量句对的实战经验。关键步骤包括:1) 编码规整与文本标准化(特别是维吾尔语阿拉伯字母的特殊处理);2) 语言/脚本判别(阿拉伯字母和CJK占比阈值);3) 长度/比率/符号过滤;4) 哈希去重与MinHash近重复检测;5) LaBSE语义对齐评分(阈值≥0.7)结合规则校验;6) 人工分层抽检。 清洗流程呈DAG结构,通过多阶段过滤(总淘汰率约91.5%),最终获得适用于NLLB模型微调的高质量双语语料。文中提供了脚本设计思路、正则表达式模板和阈
2025-10-10 21:22:22
989
2
原创 微调NLLB模型进行维吾尔语翻译中文:从数据构建到多卡训练的实战分享
用 NLLB 模型做了一个维语翻译成中文的项目。我们准备了一批高质量的中维双语数据,经过微调后,模型的 BLEU 分数达到了 58,效果很不错。训练时用了 Accelerate 提高效率,还总结了一些踩坑经验。整体流程清晰简单,希望能给做少数民族语言翻译的朋友提供点参考。
2025-04-13 16:39:53
2337
8
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅