hatescore-korean-hate-speech:在线韩语文本的多标签仇恨言论数据集
项目介绍
HateScore 是一个在线韩语文本的多标签仇恨言论数据集,旨在帮助研究者更好地理解和管理网络仇恨言论。该数据集包含约 1.1 万个文本样本,涵盖了女性、性少数群体、男性、种族、地区、信仰和年龄等 7 个主要标签,以及额外的 3 个类别:其他仇恨言论、单纯恶意言论和普通言论。
HateScore 的数据集由三部分组成:通过 HITL(Human-in-the-Loop)方式标注的 1.7 千个样本、从公开知识库收集的 2.2 千个中立语句样本和基于规则生成的 7.1 千个中立语句样本。这些样本旨在防止中立语句的误分类,并提高仇恨言论分类的准确性。
项目技术分析
HateScore 项目采用了多种先进的技术和方法,包括:
- HITL(Human-in-the-Loop)标注:通过结合人工标注和机器学习模型,确保数据集的质量和准确性。
- KcBERT-base 模型:HateScore 数据集使用 KcBERT-base 模型进行预训练,该模型是一个基于 Transformer 的韩语文本分类模型,具有优秀的性能。
- 多标签分类:HateScore 项目采用多标签分类方法,可以同时识别文本中的多个仇恨言论类别。
项目及技术应用场景
HateScore 项目可以应用于多种场景,包括:
- 网络仇恨言论检测:可以帮助社交媒体平台、论坛和聊天室等网络平台检测和过滤仇恨言论,创造一个更加健康和友好的网络环境。
- 仇恨言论研究:可以帮助研究者更好地理解仇恨言论的成因和影响,并开发更有效的干预措施。
- 自然语言处理:可以帮助开发更准确的文本分类模型,提高自然语言处理技术的性能。
项目特点
HateScore 项目具有以下特点:
- 高质量的数据集:HateScore 数据集由专业人员标注,并经过严格的清洗和验证,确保数据集的质量和准确性。
- 多样化的样本:HateScore 数据集包含多种类型的仇恨言论样本,涵盖了不同的主题和场景,可以用于训练更通用的仇恨言论检测模型。
- 易于使用:HateScore 项目提供了简单的 API 和示例代码,方便用户使用数据集和模型进行实验和研究。
总结
HateScore 是一个非常有价值的开源项目,为仇恨言论检测和研究提供了高质量的数据集和模型。该项目的创新技术和方法可以帮助我们更好地理解和管理网络仇恨言论,创造一个更加健康和友好的网络环境。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考