该文章提出了基于QLoRA微调大语言模型的方法,用于罗马乌尔都语-英语混合文本中的冒犯性语言检测,解决了该低资源语言场景下模型性能与资源消耗的矛盾,为多语言冒犯性内容检测提供了新路径。
一、文章主要内容总结
- 研究背景:罗马乌尔都语-英语混合文本存在语法不规范、拼写不一致、标注数据稀缺等问题,传统NLP模型检测冒犯性语言准确率低,且大语言模型(LLMs)微调存在高计算成本问题。
- 核心方法
- 数据预处理:使用Google Translator将罗马乌尔都语-英语混合文本翻译成英语,以利用英语LLMs的能力,同时保留数据原始混合特性,仅过滤空白条目和检查编码问题。
- 模型选择与微调:选择LLaMA 3(8B)、Mistral 7B、LLaMA 2(7B)、RoBERTa、ModernBERT五种模型;对前三种LLMs采用QLoRA进行内存高效微调,对后两种传统Transformer模型采用监督学习微调。
- 实验设置:在包含46026个样本(24026个“冒犯性”、22000个“非冒犯性”)的手动标注数据集上训练,按8:2分层抽样划分训练集与测试集,使用准确率、精确率、召回率、F1分数等指标评估,硬件为NVIDIA A100(80GB VRAM)等。
- 关键结果:LLaMA 3(8B)表现最佳,F1分数达91.45%;其次是Mistral 7B(89.66%)和
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



