自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

人工智能前沿探寻

人工智能前沿探寻

  • 博客(2)
  • 收藏
  • 关注

原创 微调NLLB之前,我是如何清洗2亿条维吾尔语↔中文语料的?——从脏数据到970万高质句对的实战手记

本文分享了从2亿条维吾尔语-中文平行语料中清洗出970万高质量句对的实战经验。关键步骤包括:1) 编码规整与文本标准化(特别是维吾尔语阿拉伯字母的特殊处理);2) 语言/脚本判别(阿拉伯字母和CJK占比阈值);3) 长度/比率/符号过滤;4) 哈希去重与MinHash近重复检测;5) LaBSE语义对齐评分(阈值≥0.7)结合规则校验;6) 人工分层抽检。 清洗流程呈DAG结构,通过多阶段过滤(总淘汰率约91.5%),最终获得适用于NLLB模型微调的高质量双语语料。文中提供了脚本设计思路、正则表达式模板和阈

2025-10-10 21:22:22 989 2

原创 微调NLLB模型进行维吾尔语翻译中文:从数据构建到多卡训练的实战分享

用 NLLB 模型做了一个维语翻译成中文的项目。我们准备了一批高质量的中维双语数据,经过微调后,模型的 BLEU 分数达到了 58,效果很不错。训练时用了 Accelerate 提高效率,还总结了一些踩坑经验。整体流程清晰简单,希望能给做少数民族语言翻译的朋友提供点参考。

2025-04-13 16:39:53 2337 8

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除