为了消灭不友好评论，ins用200万条数据训练了FB的DeepText

weixin_34227447

于 2018-01-15 14:46:00 发布

阅读量135

点赞数

CC 4.0 BY-SA版权

文章标签：人工智能

原文链接：https://yq.aliyun.com/articles/499721

Instagram推出文本过滤器，旨在净化网络言论环境，打造更友善社区。采用DeepText引擎通过机器学习理解语境，有效识别和分类恶意评论。

本文来自AI新媒体量子位（QbitAI）

网络言论环境也该净化一下了，倡导言论自由的美国也意识到了这点。

昨天，图片社交平台Instagram推出两种文本过滤器：一种可以抵制冒犯性评论，一种能够过滤垃圾消息。Instagram官方公告上说，这是为了净化言论环境，将Instagram打造成更友善包容的社区。

640?wx_fmt=png&wxfrom=5&wx_lazy=1 文本分析并没有想象中那么容易，只分析单个词语的含义不足以判别整个句子的潜在意思。

由中性词语构成的句子可能饱含敌意，比如“只有白人拥有权力”；同样地，貌似粗鲁的句子可能会在语境中表示中性意，比如这句“Fuck what, fuck whatever y’all been wearing”其实是侃爷的一句歌词。

人类通常善于分析这些语法，但机器就觉得没那么轻松了。

去年六月，Facebook推出一款文本分类引擎DeepText，用机器学习的方法向机器解释语境下的词汇。Instagram的文本过滤功能就基于DeepText完成的。

DeepText采用了“词汇嵌入”的概念，模仿人脑语言区的工作方式。当系统遇到新单词时会像人类一样思考，并试图从上下文的其他单词推断含义，从而达到为评论分类并阻拦垃圾邮件的效果。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

据《连线》杂志报道，有专门的承包商负责训练DeepText识别和分类恶意评论。

训练后的DeepText可以将这些评论分为“霸凌”“种族歧视”“性骚扰”等类别。在本系统上线前，评估人员至少用了200多万条评论训练集它，而每一条评论至少训练两次，来保证系统的准确性。

目前系统仅能处理英语评论，但Instagram计划将垃圾消息过滤器扩展到9种语言，包括英语、西班牙语、葡萄牙语、法语、德语、日语、俄语、阿拉伯语和汉语。也就是说，它将会被更广泛地应用。

【完】

本文作者：安妮

原文发布时间：2017-06-30

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。