随着网络强国战略思想、加强网络内容建设等指导思想的推出和强化,内容安全已经成为互联网企业生存和发展的生命线。然而,传统的内容技术已难以满足企业日益增长的安全需求,就拿图像来说,传统的色情识别技术为例,就经常会存在误判、错判、漏判等情况。
基于深度学习模型的图像分类,则可以实现更高的准确率,以及图像、内容文本实时处理。实时图像处理的背后是这样的一个技术架构在支撑:下载集群和并行计算,然后再经过色情模型、暴恐模型、涉政模型、广告模型等判断处理,最后给出结果处理。这一套流程下来,平均时长仅在500ms以内。
在文本内容识别上,之前的传统技术存在着:
变化多:垃圾变种形式多样。
内容重复率低;规则系统需要及时维护,庞大的规则库才能较好的拦截,人工审核量巨大。
内容短:1-2句话居多,词汇量少;常规的文本分类模型不适用。
语义:部分敏