doc1.txt
原始语料:

doc2.txt
预处理后:

doc3.txt
结果为:

代码为:
import re
def yuchuli():
filename = './中间结果/doc1.txt'
f = open(filename, 'r', encoding='utf-8')
context = f.read()
pattern = ",|\\.|\\?|!|:|;|~|,|:|。|!|;|?| "
sentence = [i.replace('\n', '##').strip() for i in re.split(pattern, context)]
g = open('./中间结果/doc2.txt', 'w', encoding='utf-8')
for word in sentence:
a = str(word)
a = a.replace('##', '\r\n')
print(a, file=g)
f.close()
g.close()
k = open('./中间结果/doc2.txt', 'r', encoding='utf-8')
out = open('./中间结果/doc3.txt', 'w', encoding='utf-8')
for eachline in k.readlines():
if len(eachline) > 5:
out.writelines(eachline)
k.close()
out.close()
yuchuli()

本文介绍了一种使用正则表达式进行文本预处理的方法,通过去除标点符号并将文本分割成句子,然后进一步清理数据,移除长度过短的句子,为后续的自然语言处理任务准备干净的数据。
983

被折叠的 条评论
为什么被折叠?



