为了消灭不友好评论,ins用200万条数据训练了FB的DeepText

Instagram推出文本过滤器,旨在净化网络言论环境,打造更友善社区。采用DeepText引擎通过机器学习理解语境,有效识别和分类恶意评论。
本文来自AI新媒体量子位(QbitAI)

网络言论环境也该净化一下了,倡导言论自由的美国也意识到了这点。

昨天,图片社交平台Instagram推出两种文本过滤器:一种可以抵制冒犯性评论,一种能够过滤垃圾消息。Instagram官方公告上说,这是为了净化言论环境,将Instagram打造成更友善包容的社区。

640?wx_fmt=png&wxfrom=5&wx_lazy=1文本分析并没有想象中那么容易,只分析单个词语的含义不足以判别整个句子的潜在意思。


由中性词语构成的句子可能饱含敌意,比如“只有白人拥有权力”;同样地,貌似粗鲁的句子可能会在语境中表示中性意,比如这句“Fuck what, fuck whatever y’all been wearing”其实是侃爷的一句歌词。

人类通常善于分析这些语法,但机器就觉得没那么轻松了。

去年六月,Facebook推出一款文本分类引擎DeepText,用机器学习的方法向机器解释语境下的词汇。Instagram的文本过滤功能就基于DeepText完成的。

DeepText采用了“词汇嵌入”的概念,模仿人脑语言区的工作方式。当系统遇到新单词时会像人类一样思考,并试图从上下文的其他单词推断含义,从而达到为评论分类并阻拦垃圾邮件的效果。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

据《连线》杂志报道,有专门的承包商负责训练DeepText识别和分类恶意评论。

训练后的DeepText可以将这些评论分为“霸凌”“种族歧视”“性骚扰”等类别。在本系统上线前,评估人员至少用了200多万条评论训练集它,而每一条评论至少训练两次,来保证系统的准确性。

目前系统仅能处理英语评论,但Instagram计划将垃圾消息过滤器扩展到9种语言,包括英语、西班牙语、葡萄牙语、法语、德语、日语、俄语、阿拉伯语和汉语。也就是说,它将会被更广泛地应用。

【完】

本文作者:安妮 
原文发布时间:2017-06-30
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值