自然语言处理NLP系列(一)——文本预处理
1 英文文本预处理
1.1 个人认为英文文本预处理分两步就可
第一步,将文本中含有的常用标点符号用空格替换掉,这么做的原因是英文中标点和单词之间是没有空格,后面用空格作为分隔符分词的时候就容易造成标点和单词在一起造成单词就不是原来的词了;
第二步,形成停用词表,去除停用词,停用词主要包括语气词,句子连接词等对文本的语义理解作用不大的词汇。
1.2 代码实现
stopwordsFile = "./stopwords"
# 构建停用词表
if not os.path.isfile(stopwordsFile): # 判断文件是否存在
raise ValueError("Can't find a stopwords file at path '{}'.".format(stopwordsFile))
stopwords = []
with open(stopwordsFile, "r") as f:
while True:
line = f.readline()
if not line:
break
self.stopwords.append(line.strip(