技术信息分词-1
题目一:
概述:
'''
问题1:(10分)在考生文件夹下给出了程序框架文件PY301-1.py,补充代码完成程序。
用Python语言中文分词第三方库jieba对文件data.txt进行分词,并选择长度大于等于3个字符的关键词,
写入文件out1.txt,每行一个关键词,各行的关键词不重复,输出顺序不做要求,
例如:
人工智能
科幻小说
'''
思路:
- jieba库导入与文件操作
# 导入jieba(中文分词)库
import jieba
# 打开文件
f = open('out1.txt', 'w')
fp = open('data.txt')
- 使用列表缓存来排除重复信息
l = []
for line in fp:
res = jieba.lcut(line) # 分词
for i in res:
# 建立缓存,如果有重复的信息则不执行写入操作
if len(i) >= 3 and i not in l:
l.append(i) # 添加到缓存中
f.write(i + '\n') # 写入到文件中
- 释放资源
# 关闭文件 释放资源
f.close()
fp