语料需要的清洗的问题
- 1、标点符号,中文标点混合英文标点符号,全半角等
- 2、有一些特殊的表情符号存在于句子中
- 3、还有一些标点符号重复使用
- 4、至于繁体中文转中文,停用词等之类
1、规则匹配方法
### 匹配除了数字、英文标点、中文标点、中文字符、中文字符之外符号;这种符号一般可以去掉中文文本表达中的表情符号,特殊字符等之类的。
improt re
from string import punctuation
from string import digits
rule = re.compile(u'[^a-zA-Z.,;《》?!“”‘’@#¥%…&×()——+【】{};;●,。&~、|\s::'+digits+punctuation+'\u4e00-\u9fa5]+')
s= re.sub(rule, '', sentence)
###处理文本重复符号的表达,如替换多个。!.
s = re.sub('[!]+','!', s)
s = re.sub('[.]+','。', s)
s = re.sub('[。]+','。', s)
2、处理整段中文语料上述问题,只提取中文部分
def clean_line(s):
"""
:param s: 清洗爬取的中文语料格式
:return:
"""
import re
from string import digits, punctuation
rule = re.compile(u'[^a-zA-Z.,;《》?!“”‘’@#¥%…&×()——+【】{};;●,。&~、|\s::' + digits + punctuation + '\u4e00-\u9fa5]+')
s = re.sub(rule, '', s)

本文主要讨论了中文语料清洗过程中遇到的问题,包括标点符号(中文和英文)、全半角、表情符号和重复标点的处理,以及繁体中文转换和停用词的过滤。提出了规则匹配方法,如去除非数字、英文标点、中文标点、中文字符以外的符号,以及专注于提取中文内容。
最低0.47元/天 解锁文章
2901

被折叠的 条评论
为什么被折叠?



