本文是LLM系列文章,针对《Harnessing Artificial Intelligence to Combat Online Hate: Exploring the Challenges and Opportunities of Large Language Models in Hate Speech Detection》的翻译。
利用人工智能打击网络仇恨:探索大型语言模型在仇恨语音检测中的挑战和机遇
摘要
大型语言模型(LLM)在语言生成之外的许多不同应用中都表现出色,例如翻译、摘要和情感分析。一个有趣的应用是文本分类。这在识别仇恨或有毒言论的领域变得至关重要——这是一个充满挑战和道德困境的领域。在我们的研究中,我们有两个目标:首先,提供一篇围绕LLM作为分类器的文献综述,强调它们在检测和分类仇恨或有毒内容方面的作用。随后,我们探讨了几种LLM在对仇恨言论进行分类方面的功效:确定哪些LLM在这项任务中表现出色,以及它们的基本属性和训练。深入了解导致LLM熟练(或缺乏)辨别仇恨内容的因素。通过将全面的文献综述与实证分析相结合,我们的论文试图阐明LLM在仇恨言论检测这一关键领域的能力和限制。