敏感词过滤及字符串编码问题

最新推荐文章于 2022-02-14 21:31:17 发布

原创最新推荐文章于 2022-02-14 21:31:17 发布 · 597 阅读

0 ·

CC 4.0 BY-SA版权

Python 专栏收录该内容

21 篇文章

订阅专栏

本文介绍了一个简单的敏感词过滤实现方案，包括如何加载敏感词库、判断及替换敏感词，并讨论了字符串编码问题。

敏感词过滤代码：

# -*-coding:utf-8-*-
import sys

class senseWord():
    def __init__(self,fileName):
        """
                :type fileName: 敏感词文档
        """
        self.list = []
        print sys.stdin.encoding
        with open(fileName,'r') as f:
            for line in f.readlines():
                self.list.append(line.strip())

    def filter_0011(self,word):
        """
        判断输入词是否为敏感词
        :param word: 输入
        :return:
        """
        word = word.decode(sys.stdin.encoding).encode('utf-8')
        for item in self.list:
            item = item.decode('utf-8').encode('utf-8')
            if item== word:
                print 'Freedom'
                return item
        print 'Human Rights'
        return None

    def filter_0012(self,string):
        """
        若输入词是敏感词则替换
        :param string:
        :return:
        """
        res = self.filter_0011(string)
        if res != None:
            string = string.replace(res,"*")
        print string

if __name__ == "__main__":
    check = senseWord("filtered_words.txt")
    inputStr = raw_input("请输入： ").strip()
    check.filter_0012(inputStr)