中文脏话识别的解决方案

最新推荐文章于 2024-04-16 09:33:42 发布

原创最新推荐文章于 2024-04-16 09:33:42 发布 · 3.2k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#中文识别

本文探讨了中文脏话的定义，包括谩骂和人身攻击，并介绍了网易云安全（易盾）的两种识别方案：关键词识别和模型识别，以维护社区和产品评论的健康环境。关键词识别依赖大量样本，模型识别则利用语义分析减少误判漏判。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文来自网易云社区

要识别，先定义脏话的概念。谩骂、人身攻击等粗俗语言均可定义为脏话。这类内容如果频繁出现在社区、产品评论中，对产品氛围的维护有相当大的负面影响。

网易云安全（易盾）将这类内容统称为“谩骂”，也是垃圾内容的一个类别。识别方案包含以下几种：

1）关键词识别：中文谩骂内容常出现的类目，易盾已覆盖了绝大部分，积累了大量的垃圾样本，涵盖了目前常出现的垃圾内容，可以准确识别；

2）模型识别：将谩骂样本加入训练库，提取相同特征，由模型对文本进行识别。模型也将随模型的训练提高精度。语义识别算法可以精确识别语义，可以根据上下文内容进行语义识别，防止仅依靠关键词而造成的的误判漏判。

网易云安全（易盾）是网易云旗下一站式云安全服务，有此需要者可点击免费试用。

相关文章：
【推荐】 jq 一个强悍的json格式化查看工具
【推荐】用RegularJS开发小程序 — mpregular解析
【推荐】 HBase - 数据写入流程解析

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

jessicaiu

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

过滤脏字算法

09-12

net过滤脏字的代码，一般用于处理论坛等言论的敏感词过滤，我主要用到了代码内的TrieFilter工具类，其他工具类若有需求可以自行研究

脏话文本检测方案

鲁班七号

11-21

2391

目录1. 场景2. 方案3. 数据增强4. 代码 1. 场景在问答系统中用户问题可能存在违规情况，包含涉政、色情、辱骂文字的文本视为违规文本。本文提出一种违规文本检测方案，本方案仅限于判断文本是否包含违规内容，属于文本分类问题。 2. 方案方案流程图如下所示。违规词和疑似违规词由人工收集，文本中匹配到违规词则识别为违规文本，例如“煞笔”。文本匹配到疑似违规词或者fasttext模型判断为违规文本则进一步由RoBERTa模型判断。 3. 数据增强为了防止被系统屏蔽，用户通常会魔改违规用语

参与评论您还未登录，请先登录后发表或查看评论

Profanity Check: 一站式脏话检测工具

最新发布

gitblog_00038的博客

04-16

1121

Profanity Check: 一站式脏话检测工具去发现同类优质开源项目:https://gitcode.com/ 是一个轻量级且高效的Python库，用于检测文本中的不恰当或冒犯性词汇。该项目由开发者vzhou842维护，并在GitCode平台上开放源代码，旨在帮助内容审核、社交媒体监控以及家庭友好应用等领域进行自动过滤和净化文字。技术分析 Profanity Check的核心是基于预训练...

Google脏话检测API

AndyLizh的专栏

11-05

3508

简介 What do you love? 本是Google的一个搜索工具，但是其中隐含着一个可用于检测脏话的接口。比如，搜索最通俗的高雅词：f#ck，就会自动将这个词换成kittens（小猫咪）……可爱的谷歌。 Demo http://www.wdyl.com/profanity?q=fuck 接口类型 HTTP（GET） / UTF-8 接口返回值 json

谷歌脏话检测API

乐杨俊浅谈LAMP

05-22

2350

《20个令无数家长困惑问题的解决方案实用.pdf

02-22

在《20个令无数家长困惑问题的解决方案实用.pdf》这本书中，作者旨在为父母提供一系列实际有效的亲子教育策略，解决他们在育儿过程中遇到的各种难题。这本书以口语化、易理解的文字，介绍了20个常见的家庭教育问题...

ASP版智能脏话过滤系统：小型、易用、强效

智能脏话过滤系统是基于Web应用的一种内容监控解决方案，其核心功能是识别和屏蔽网络中的不适当用语。ASP（Active Server Pages）是微软开发的一种服务器端脚本环境，用于创建动态交互式网页。该系统利用ASP技术，...

Rails 插件实现英文脏话过滤功能

资源摘要信息:"Rails 英文脏话...它支持基本替换和字典术语两种过滤方式，为不同需求的场景提供了可定制的解决方案。通过集成这个插件，开发者可以将精力集中在业务逻辑和用户体验的提升上，而不必担心内容不当的问题。

WordCleaner: JavaScript脚本清除网页脏话

WordCleaner提供了一个简便的自动化解决方案，帮助网站快速实现基本的内容过滤，从而提升网站的管理效率和用户体验。 6. 编写自定义脚本的注意事项开发类似WordCleaner的自定义脚本时，需要考虑语言的多样性和复杂...

BadwordsJavaScript：ES2016+脏话过滤器实用教程

资源摘要信息: "badwords:BadwordsJavaScript过滤器" badwords是一个JavaScript过滤器库，...通过这种模块化的解决方案，可以轻松集成到多种JavaScript应用中，无论是服务器端的Node.js应用，还是客户端的Web应用。

骂人脏字过滤mysql_oracle_sqlserver数据库.txt

09-14

支持MySQL Oracle sqlserver都可以使用，常见常用的一些不好看，不好听，不好的词语都在内部有所记录，希望贵公司的语言环境能有一个非常舒适的聊天环境，能给大家带来价值是我的荣幸

强大灵活的脏字过虑：1万字文章过虑1万关键词用时只要1毫秒（包括扩展的高亮功能）

03-30

NULL 博文链接：https://javatgo.iteye.com/blog/1318495

chinese_text_cnn：TextCNN Pytorch实现中文文本分类情感分析

02-03

TextCNN Pytorch实现中文文本分类论文参考依赖项 python3.5 pytorch == 1.0.0 torchtext == 0.3.1 jieba == 0.39 词向量（这里用的是Zhihu_QA知乎问答训练出来的单词Word2vec）用法 python3 main.py -h 训练 python3 main.py 准确率 CNN-rand随机初始化嵌入 python main.py Batch[1800] - loss: 0.009499 acc: 100.0000%(128/128) Evaluation - loss: 0.0000

骂人的话数据库，可以编写骂人的小程序，比如python语言编写。另附加python代码。

04-19

from pynput.mouse import Button, Controller as mouse_Controller from pynput.keyboard import Key, Controller as key_Controller f = open("骂人.txt", encoding="utf-8") txt = f.read() lis_txt = txt.split("\n") time.sleep(5) mouse = mouse_Controller() keyboard = key_Controller() mouse.press(Button.left) mouse.release(Button.left) for i in range(101): key_world = random.choice(lis_txt) time.sleep(0.2) keyboard.type(key_world) keyboard.press(Key.enter) keyboard.release(Key.enter)

过滤脏话的filter代码

03-18

过滤脏话的filter代码，很有参考价值哦，学习javaweb的filter可以看看

转脏字/ 敏感词汇搜索算法

tattarrattat的专栏

09-17

3962

字符串多模式精确匹配（脏字/敏感词汇/关键字过滤算法）——TTMP算法之实战F模式Sumtec 2008-02-08 22:49 阅读:6353 评论:15 字符串多模式精确匹配（脏字/敏感词汇搜索算法）——TTMP算法之B模式概述Sumtec 2008-02-04 17:51 阅读:2520 评论:6 字符串多模式精确匹配（脏字/敏感词汇搜索算法）之算法前传IISumtec 2008-02-03 15:13 阅读:2896 评论:11 字符串多模式精确匹

小姐姐如何利用TextCNN识别脏话

ningyanggege的博客

04-29

2792

“网络喷子”群体的出现，使新闻文章中的谩骂评论屡见不鲜。为了净化平台和保证用户体验，如何自动拦截谩骂评论是亟待解决的问题。本文旨在利用卷积神经网络构建谩骂评论的自动识别模型，用机器对抗喷子。新闻文章的评论中，经常会出现谩骂评论，包括对新闻当事人的辱骂、对小编的问候以及评论回复中对楼主的攻击等，不仅会影响平台的品质和逼格，更主要的是会影响用户体验。所以如何减少谩骂评论的出现是一个值得解决的问题。...

脏字匹配（脏字字典以|分隔）

programmerfanwei的博客

05-29

1957

public class DirtyWordHandler { private HashSet<string> hash = new HashSet<string>(); private byte[] fastCheck = new byte[char.MaxValue]; private BitArray charChec...

游戏是通过什么检测脏话的?Python带你搞清原理！

爬遍所有网站

08-09

1097

在游戏中聊天功能几乎是必备的功能，这样的功能存在一定的问题那就是会导致世界频道很乱，经常会有一些敏感词，或者一些游戏厂商不愿意看到的聊天，之前我们游戏中也有这样的问题，我们公司做了举报和后台监控，今天就来实现下这种监控。 1、需求分析：因为深度学习用的不咋样，虽然之前写过强化学习，但是看强化学习的结果不是特别满意，所以研究下简单一些的方法实现。这种分类任务其实有现成的解决方案，比如垃圾邮件的分类是同样的问题，虽然有不同的解法，但是我还是选择了最简单的朴素贝叶斯分类。主要做一些探索，因为我们的.