#-*- coding: gbk -*-
import sys
#pip install jieba 可能 需要两个回车, 才能安装
#inputFile 为 ANSI 格式 文件
sys.path.append("../")
import jieba
def splitSentence(inputFile, outputFile):
fin = open(inputFile, 'r') #以读的方式打开文件
fout = open(outputFile, 'w') #以写得方式打开文件
for eachLine in fin:
line = eachLine.strip()#.decode('gbk', 'ignore') #去除每行首尾可能出现的空格,并转为Unicode进行处理
wordList = list(jieba.cut(line)) #用结巴分词,对每行内容进行分词
outStr = ''
for word in wordList:
outStr += word
outStr +=chr(10)+chr(10)+ ' '
#fout.write(outStr.strip().encode('gbk') + '\n') #将分词好的结果写入到输出文件
fout.write(outStr.strip() + '\n') #将分词好的结果写入到输出文件
fin.close()
fout.close()
splitSentence('myInput.txt', 'myOutput.txt')
========================
#老代码
#
#-*- coding: utf-8 -*-
#code:myhaspl@qq.com
#12-1.py
import sys
reload(sys)
sys.setdefaultencoding("gbk")
sys.path.append("../")
import jieba
def splitSentence(inputFile, outputFile):
fin = open(inputFile, 'r') #以读的方式打开文件
fout = open(outputFile, 'w') #以写得方式打开文件
for eachLine in fin:
line = eachLine.strip().decode('gbk', 'ignore') #去除每行首尾可能出现的空格,并转为Unicode进行处理
wordList = list(jieba.cut(line)) #用结巴分词,对每行内容进行分词
outStr = ''
for word in wordList:
outStr += word
outStr +=chr(10)+chr(10)+ ' '
fout.write(outStr.strip().encode('gbk') + '\n') #将分词好的结果写入到输出文件
fin.close()
fout.close()
splitSentence('myInput.txt', 'myOutput.txt')