恶毒评论分类报告

恶毒评论分类报告

一、问题的定义

1.1、项目概述

    讨论你关心的事情是很困难的。网络上的虐待和骚扰的威胁意味着许多人停止表达自己,放弃寻求不同的意见。平台很难有效地促进对话,导致许多社区限制或完全关闭用户评论。
    对话人工智能团队是Jigsaw和谷歌(都是Alphabet的一部分)共同发起的一个研究项目,目前正致力于开发帮助改善在线对话的工具。一个重点领域是对负面网络行为的研究,比如有毒评论(即粗鲁、无礼或可能让人离开讨论的评论)。到目前为止,他们已经建立了一系列通过透视图API服务的公开可用模型,包括毒性模型。但是,目前的模型仍然存在错误,并且不允许用户选择他们感兴趣的毒性类型(例如,一些平台可能容忍亵渎行为,但对其他类型的毒性内容却不能容忍)。

1.2、问题陈述

    在该项目中,我们需要对于网络社区部分恶毒评论进行区分鉴别,需要建立一个可以区分不同类型的言语攻击行为的模型,该赛题一共提供了toxic,severe_toxic,obscene,threat,insult,identity_hate这六种分类标签,需要根据提供的训练数据进行模型训练学习。
    该问题是一个文本多分类问题,每一个文本可能存在0个或1个以上的标签。

1.3、评价指标

    该项目中,数据存在严重的不平衡,虽然我选择TextCNN模型,但如果使用f1等作评价指标,各个分类的评分差别有可能会比较大,这时导致综合评分无法计算;尽可能将评论正确分类是最重要的,因此在这里我使用ROC-AUC作为评价指标,这也符合项目的要求预测的结果是概率。
    ROC-AUC在考虑“真正例率”和“假正例率”:TRP=TPTP+FNTRP=\frac{TP}{TP+FN}TRP=TP+FNTP,FPR=FPTN+FPFPR=\frac{FP}{TN+FP}FPR

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值