Detecting Bias in Large Language Models: Fine-tuned KcBERT

本文探讨了大型语言模型(LLM)如KcBERT在韩语中的社会偏见问题,通过模板化的掩蔽语言建模评估种族、性别和族裔偏见。实验表明微调可能导致性别和种族偏见的增加,提出了数据平衡和去偏正则化作为缓解策略。研究扩展了对非英语模型偏见的理解,但未来需要更多语言和模型的研究。

本文是LLM系列文章,针对《Detecting Bias in Large Language Models: Fine-tuned KcBERT》的翻译。

检测大型语言模型中的偏差:微调KcBERT

摘要

大型语言模型(LLM)的快速发展使其具有与人类相似的自然语言处理能力,LLM正被广泛应用于教育和医疗保健等各个社会领域。虽然这些模型的多功能性有所提高,但它们有可能产生主观和规范的语言,导致社会群体中的歧视性待遇或结果,尤其是由于网络攻击性语言。在本文中,我们将此类危害定义为社会偏见,并通过基于模板的掩蔽语言建模(MLM),使用来自Transformer的双向编码器表示(KcBERT)和KOLD数据,在一个与韩语评论微调的模型中评估种族、性别和种族偏见。为了定量评估偏差,我们采用了LPBS和CBS指标。与KcBERT相比,微调后的模型显示种族偏见有所减少,但性别和种族偏见发生了显著变化。基于这些结果,我们提出了两种减轻社会偏见的方法。首先,预训练阶段的数据平衡方法通过调整特定单词的出现分布并将周围的有害单词转换为无害单词来调整数据的一致性。其次,在训练阶段,我们通过调整dropout和正则化来应用去偏正则化,证实了训练损失的减少。我们的贡献在于证明,由于语言依赖性特征,韩语模型中存在社会偏见。

1 引言

2 相关工作

3 方法

4 实验

5 实验结果

6 结论和未来工作

在本文中,研究了用KcBERT和KOLD数据微调的模型的社会偏见。最初,为了证实社会偏见,我们采用了基于模板的MLM方法,揭示了两个模型中社会偏见的发生。为了量化社会偏见,我们引入了L

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值