将语料分词后写入另一个文件

最新推荐文章于 2023-10-05 12:08:32 发布

原创最新推荐文章于 2023-10-05 12:08:32 发布 · 535 阅读

1 ·

CC 4.0 BY-SA版权

python编程专栏收录该内容

143 篇文章

订阅专栏

本文介绍了一种使用Python的jieba库进行中文文本分词的方法。通过读取源文件，利用jieba的cut方法对句子进行精确模式的分词，并将结果写入到新的文件中。

# coding:utf_8
import jieba

filePath='source.txt'
fileSegWordDonePath ='sourceSegDone.txt'

f = open(filePath, mode='r',encoding='utf-8')
g = open(fileSegWordDonePath, mode='w',encoding='utf-8')
sentence = f.read()

words = jieba.cut(sentence,cut_all=False)
# print(" ".join(words))#结果是"迭代器"。可以用循环打开，还可以用" “.join()的方式打开
g.write(" ".join(words))
f.close()
g.close()