推特数据中仇恨言论和冒犯性语言检测与增强时频表示方法
推特数据中仇恨言论和冒犯性语言检测
在当今互联网时代,社交媒体已成为人们表达观点和情感的重要平台,但其中的仇恨言论和冒犯性语言也带来了诸多问题。为了有效过滤这些不良内容,研究人员进行了一系列实验。
实验设置
为了获得更好的实验结果,研究中使用了多个超参数。在众多优化算法中,自适应矩估计(Adam)表现出色。以下是Adam优化器训练网络时使用的训练指标:
| 参数 | 值 |
| — | — |
| 优化器 | Adam |
| 初始学习率 | 0.01 |
| 最大轮数 | 300 |
| 小批量大小 | 300 |
| 梯度阈值 | 1 |
| 最大迭代次数 | 9600 |
通过调整轮数和小批量大小等参数进行迭代训练,以获得最佳训练模型。当训练进行到一半迭代次数后,训练损失变得较小且趋于稳定,因此采用了提前停止准则,手动停止训练。最终模型实现了98.24%的训练准确率,且数据损失最小。
实验内容
为了更好地探索过滤推特中仇恨言论和冒犯性语言的方法,研究进行了四个实验:
1. 实验1 :构建一个简单的长短期记忆网络(LSTM)分类器,包含一个LSTM层。首先是序列输入层获取顺序输入,将数据传递给包含100个隐藏单元的LSTM层,再将数据转发到输出大小为3的全连接层,使用Softmax作为激活函数,最后由分类层生成输出值。
2. 实验2 :采用单个双向长短期记忆网络(Bi - LSTM)
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



