清洗中文语料过程

本文主要讨论了中文语料清洗过程中遇到的问题,包括标点符号(中文和英文)、全半角、表情符号和重复标点的处理,以及繁体中文转换和停用词的过滤。提出了规则匹配方法,如去除非数字、英文标点、中文标点、中文字符以外的符号,以及专注于提取中文内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

语料需要的清洗的问题

  • 1、标点符号,中文标点混合英文标点符号,全半角等
  • 2、有一些特殊的表情符号存在于句子中
  • 3、还有一些标点符号重复使用
  • 4、至于繁体中文转中文,停用词等之类

1、规则匹配方法

### 匹配除了数字、英文标点、中文标点、中文字符、中文字符之外符号;这种符号一般可以去掉中文文本表达中的表情符号,特殊字符等之类的。

improt re
from string import punctuation
from string import digits
rule = re.compile(u'[^a-zA-Z.,;《》?!“”‘’@#¥%…&×()——+【】{};;●,。&~、|\s::'+digits+punctuation+'\u4e00-\u9fa5]+')
s= re.sub(rule, '', sentence)
###处理文本重复符号的表达,如替换多个。!.
s = re.sub('[!]+','!', s)
s = re.sub('[.]+','。', s)
s = re.sub('[。]+','。', s)

 2、处理整段中文语料上述问题,只提取中文部分

def clean_line(s):
    """
    :par
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值