人工智能前沿探寻-优快云博客

原创微调NLLB之前，我是如何清洗2亿条维吾尔语↔中文语料的？——从脏数据到970万高质句对的实战手记

本文分享了从2亿条维吾尔语-中文平行语料中清洗出970万高质量句对的实战经验。关键步骤包括：1) 编码规整与文本标准化（特别是维吾尔语阿拉伯字母的特殊处理）；2) 语言/脚本判别（阿拉伯字母和CJK占比阈值）；3) 长度/比率/符号过滤；4) 哈希去重与MinHash近重复检测；5) LaBSE语义对齐评分（阈值≥0.7）结合规则校验；6) 人工分层抽检。清洗流程呈DAG结构，通过多阶段过滤（总淘汰率约91.5%），最终获得适用于NLLB模型微调的高质量双语语料。文中提供了脚本设计思路、正则表达式模板和阈

2025-10-10 21:22:22 989 2

原创微调NLLB模型进行维吾尔语翻译中文：从数据构建到多卡训练的实战分享

用 NLLB 模型做了一个维语翻译成中文的项目。我们准备了一批高质量的中维双语数据，经过微调后，模型的 BLEU 分数达到了 58，效果很不错。训练时用了 Accelerate 提高效率，还总结了一些踩坑经验。整体流程清晰简单，希望能给做少数民族语言翻译的朋友提供点参考。

2025-04-13 16:39:53 2337 8

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 微调NLLB之前，我是如何清洗2亿条维吾尔语↔中文语料的？——从脏数据到970万高质句对的实战手记

原创 微调NLLB模型进行维吾尔语翻译中文：从数据构建到多卡训练的实战分享

空空如也

空空如也

原创微调NLLB之前，我是如何清洗2亿条维吾尔语↔中文语料的？——从脏数据到970万高质句对的实战手记

原创微调NLLB模型进行维吾尔语翻译中文：从数据构建到多卡训练的实战分享