清洗中文语料过程

最新推荐文章于 2025-11-14 17:37:53 发布

原创

最新推荐文章于 2025-11-14 17:37:53 发布 · 1.1w 阅读

31 ·

CC 4.0 BY-SA版权

文章标签：

#清洗中文语料 #NLP

本文主要讨论了中文语料清洗过程中遇到的问题，包括标点符号（中文和英文）、全半角、表情符号和重复标点的处理，以及繁体中文转换和停用词的过滤。提出了规则匹配方法，如去除非数字、英文标点、中文标点、中文字符以外的符号，以及专注于提取中文内容。

语料需要的清洗的问题

1、标点符号，中文标点混合英文标点符号，全半角等
2、有一些特殊的表情符号存在于句子中
3、还有一些标点符号重复使用
4、至于繁体中文转中文，停用词等之类

1、规则匹配方法

### 匹配除了数字、英文标点、中文标点、中文字符、中文字符之外符号；这种符号一般可以去掉中文文本表达中的表情符号，特殊字符等之类的。

improt re
from string import punctuation
from string import digits
rule = re.compile(u'[^a-zA-Z.,;《》？！“”‘’@#￥%…&×（）——+【】{};；●，。&～、|\s:：'+digits+punctuation+'\u4e00-\u9fa5]+')
s= re.sub(rule, '', sentence)
###处理文本重复符号的表达，如替换多个。！.
s = re.sub('[!]+','！', s)
s = re.sub('[.]+','。', s)
s = re.sub('[。]+','。', s)

2、处理整段中文语料上述问题，只提取中文部分

def clean_line(s):
    """
    :param s: 清洗爬取的中文语料格式
    :return:
    """
    import re
    from string import digits, punctuation
    rule = re.compile(u'[^a-zA-Z.,;《》？！“”‘’@#￥%…&×（）——+【】{};；●，。&～、|\s:：' + digits + punctuation + '\u4e00-\u9fa5]+')
    s = re.sub(rule, '', s)