python过滤违禁词_网站全站敏感词检测、广告违禁词查询很简单,一个python脚本轻松搞定...

本文介绍了一款用于检测网站敏感词和广告违禁词的Python脚本,该脚本可以批量检测成千上万的内容,避免因使用违规词汇导致的搜索引擎处罚或法律风险。通过修改词库和限制检测对象为HTML文件,提高了效率。使用方法包括修改域名并运行脚本,最终生成包含违规页面URL的CSV文件,帮助站长及时修正内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

做网站的同学都有一个共同的苦恼:就是自己辛辛苦苦经营的网站,如果内容中涉及色情、暴恐涉政、恶意推广、辱骂、违反广告法、涉及违禁品等文本内容,小则被搜索引擎处罚,严重的可能还会被请去喝茶。还有很多企业站因为编辑的不小心(有些词防不胜防),网页中使用了广告违禁词,可能会被竞争对手投诉到工商等部门,可能会面临关站、整改、罚款等处罚。

这样的例子屡见不鲜,百度去搜一下一大堆。

e3910e087f6b3b6d33582e4a1b78e9a4.png

企业网站被投诉违反广告违禁词案例

很多站长因此而头疼,目前网上能找到网站敏感词检测和广告违禁词查询的工具都是基于单网页或者单页面内容的,例如你的某一篇文章。对于有成千上万内容的网站检测起来就很麻烦了,总不可能一篇一篇复制过去检测吧。

前几天看到大神玉米同学写了一个全站违禁词检测查询的python脚本,使用以后发现了一些小问题,例如可能把网站上的图片当做一个内容页面去检测,这样会消耗更多网站的资源。就随手修改了一哈:只检测html文件或者目录,另外在过滤词库新增了18000余条色情、暴恐涉政、恶意推广、辱骂、违禁品等敏感词,实现不仅仅查询广告违禁词的功能。只保存有违禁词页面URL方便查询。

本脚本只有两个文件:1、filter.txt(过滤词库,你可以根据自己的需求去增加词库; 2、main.py(主程序)。使用方法如下:

网站全站敏感词检测、广告违禁词查询脚本使用方法:

提示:此脚本是基于python3.X。

1、把main.py主程序中的域名修改成你要查询网站的域名,然后保存。

6806acb7eac7e49d83028b0d5a0efc0b.png

全站敏感词检测、广告违禁词查询使用方法:1、修改域名

2、运行这个脚本。(怎么运行,请到百度搜python或者自行脑补,提示缺py库的请自行pip install)。

1cfc5b10162656e7926de830598bf7ec.png

全站敏感词检测、广告违禁词查询使用方法:2、运行脚本

3、程序会自动爬取你网站的所有连接,并提示哪个页面命中某个违禁词,最后会在程序运行目录下生成一个ok.csv文件。此文件详细记录了你网站的哪个页面有哪些违禁词。你可以根据这个上面的记录去修改相应的内容。

9397de770a72ea09958d3655d0547095.png全站敏感词检测、广告违禁词查询结果

是不是很简单呢?当然这个检测查询脚本也只是给各位站长一个提示和预警,全面检测自己网站上面到底有哪些敏感词和广告违禁词,以便及时调整内容,避免遭到损失。最后放出此下载地址。解压缩即可运行。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值