社交媒体网络暴力检测与紫外线辐射在医疗保健中的应用
社交媒体网络暴力检测
数据集与模型准备
在社交媒体网络暴力检测的研究中,使用了维基百科的数据集,该数据集包含 100k 条数据,并按照 80:20 的比例划分为训练集和测试集。具体操作时,将参数 test_size 设置为 0.20,这样就确定了测试数据集的大小。划分好的数据集将被输入到支持向量机(SVM)分类器中。
SVM 是一种最优分类器,它能在特征空间中学习一个分类超平面,这个超平面到所有训练样本的距离最大。在这里,超平面的作用是将对象集合划分为欺凌和非欺凌两类。SVM 需要有标签的训练数据,其中欺凌评论标记为 1,非欺凌评论标记为 0,然后输出一个最优超平面,该超平面可以用于对其他样本进行分类。在本次研究中,使用的 SVM 核函数为径向基函数(rbf),参数 C 设置为 1.0,C 是一个正则化参数,正则化强度与 C 成反比。
模型性能评估
为了评估模型的性能,采用了十折交叉验证法,并分别计算了二元平均、微平均、宏平均和加权平均下的准确率、精确率、召回率和 F 分数。具体计算公式如下:
- 准确率(Accuracy):是正确分类实例的百分比,计算公式为 $Accuracy = \frac{TP + TN}{TP + TN + FP + FN}$。
- 精确率(Precision):是正确分类的数据元素与总分类实例数的比率,计算公式为 $Precision = \frac{TP}{TP + FP}$。
- 召回率(Recall):是正确分类的少数类实例与实际少数类实例总数的比率,计算公式为 $Recall = \fr
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



