Python下中文预处理

最新推荐文章于 2023-11-06 11:13:28 发布

活着的隐形人

最新推荐文章于 2023-11-06 11:13:28 发布

阅读量4.9k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： Python 自然语言处理文章标签： windows 7 python nlp NLPIRICTCLAS2014 jieba

本文链接：https://blog.youkuaiyun.com/caicai1617/article/details/22042101

本文介绍了在Python环境下进行中文文本预处理的步骤，包括获取原始文本、中文分词、去除停用词、处理全半角字符，以及解决Python在Windows下的中文解码问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一得到原始文本内容

    def FileRead(self,filePath):
        f = open(filePath)
        raw=f.read()
        return raw

二中文分词

参考之前的一篇博客Python下的中文分词实现

def NlpirTokener(self,raw):
        result=''
        tokens = nlpir.Seg(raw)
        for w in tokens:
#           result+= w[0]+"/"+w[1] #加词性标注
            result+= w[0] +'/'#加词性标注
        return result
    def JiebaTokener(self,raw):
        result=''
        words = pseg.cut(raw) #进行分词
        result=""  #记录最终结果的变量
        for w in words:
#            result+= str(w.word)+"/"+str(w.flag) #加词性标注
             result+= str(w.word)+"/" #加词
        return result

三去停用词

  def StopwordsRm(self,words):
        result=''
        print words
        wordList=[word for word in words.split('#')]
        print wordList[:20]
        stopwords = {}.fromkeys([ line.rstrip()for line in open(conf.PreConfig.CHSTOPWORDS)])
        cleanTokens= [w for w in wordList ifw not in stopwords]
        print cleanTokens[:20]
        for c in cleanTokens:
            result+=c+"#"
        print result
       returnresult

在这个地方我遇到了一个很烦人的问题，那就是Python的中文解码问题，在最开始的一个小时里我在在去停用词之后一直看到的结果是这样的：