NLP-中文文本去除标点符号

最新推荐文章于 2023-09-17 23:34:54 发布

原创最新推荐文章于 2023-09-17 23:34:54 发布 · 1.9w 阅读

54 ·

CC 4.0 BY-SA版权

NLP之路同时被 2 个专栏收录

24 篇文章

订阅专栏

Python

16 篇文章

订阅专栏

本文介绍了中文文本预处理中去除标点符号的方法，包括使用Zhon库和自定义符号集两种方式，并对比了它们的效果。

简单记录一下中文文本如何去除标点和特殊符号的问题。。。

一、回顾一下英文如何去除符号等预处理问题

①去除特殊符号

def isSymbol(inputString):
    return bool(re.match(r'[^\w]', inputString))

②去除数字

def hasNumbers(inputString):
    return bool(re.search(r'\d', inputString))

③词形归一

from nltk.stem import WordNetLemmatizer
wordnet_lemmatizer = WordNetLemmatizer()

④停止词

from nltk.corpus import stopwords
stop = stopwords.words('english')

⑤将上述内容综合

def check(word):
    """
    如果需要这个单词，则True
    如果应该去除，则False
    """
    word= word.lower()
    if word in stop:
        return False
    elif hasNumbers(word) or isSymbol(word):
        return False
    else:
        return True

# 把上面的方法综合起来
def preprocessing(sen):
    res = []
    for word in sen:
        if check(word):#如果word为True的话则进行词形归一
            res.append(wordnet_lemmatizer.lemmatize(word))
    return res

接下来直接调用preprocessing()完成数据的预处理:

X_train = [preprocessing(x) for x in X_train]
X_test = [preprocessing(x) for x in X_test]

二、中文文本去除标点符号

1.背景知识

（1）使用 zhon.hanzi.punctuation函数实现。

（2）其中zhon是一个python库，它提供了在中文文本处理中常用的几个功能函数，一共包含四个模块： zhon.hanzi； zhon.pinyin； zhon.zhuyin； zhon.cedict。

（3）其中实现去除标点的功能在 zhon.hanzi模块中，我们使用 from zhon.hanzi import punctuation进行调用。

（4）其中 zhon.hanzi.punctuation函数是 zhon.hanzi.non_stops和 zhon.hanzi.stop两个函数的结合。

①zhon.hanzi.non_stops
它包含中文标点符号，不包括用作停止的标点符号。＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏

② zhon.hanzi.stops
包含起着停止作用的符号： ！？｡。

了解更多Zhon内容请点击链接：Zhon

2.示例说明1：使用Zhon库中的符号集

①命令行中安装Zhon库

pip install zhon

②代码

import re
from zhon.hanzi import punctuation
from zhon.hanzi import non_stops
from zhon.hanzi import stops
corpus='花!呗/期?免,息.---蚂！蚁/花呗？期免stops息，什么。意思?？'
print(corpus)
string1 = re.sub(r"[%s]+" %punctuation, "",corpus)#去除， ！ ？ 。
string2 = re.sub(r"[%s]+" %non_stops, "",corpus)#去除，
string3 = re.sub(r"[%s]+" %stops, "",corpus)#去除！ ？ 。
print(string1)
print(string2)
print(string3)

③结果

这里写图片描述

④问题说明

通过实验发现，利用Zhon库中的上述只能去除，。！?四种符号，而且这四种符号必须是中文符号，无法去除英文符号，无法达到预期结果。。。

3.示例说明2：自定义特殊符号集进行去除

使用自定义的符号集，用于去除想去除的符号，保留对实验有用的符号。

import re
corpus='花呗***期免息!   蚂蚁花呗。***期免息什么意思?'
print(corpus)
string = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——！，。？、~@#￥%……&*（）]", "",corpus)
print(string)

结果：
这里写图片描述