jieba分词

最新推荐文章于 2025-03-19 14:39:09 发布

unikran2018

最新推荐文章于 2025-03-19 14:39:09 发布

阅读量403

点赞数

CC 4.0 BY-SA版权

分类专栏： python

本文链接：https://blog.youkuaiyun.com/unikran2018/article/details/79606293

python 专栏收录该内容

23 篇文章

订阅专栏

#-*- coding: gbk -*-
import sys

#pip install jieba 可能需要两个回车，才能安装

#inputFile 为 ANSI 格式文件
sys.path.append("../")
import jieba

def splitSentence(inputFile, outputFile):
fin = open(inputFile, 'r') #以读的方式打开文件
fout = open(outputFile, 'w') #以写得方式打开文件

    for eachLine in fin:
        line = eachLine.strip()#.decode('gbk', 'ignore')       #去除每行首尾可能出现的空格，并转为Unicode进行处理
        wordList = list(jieba.cut(line))                        #用结巴分词，对每行内容进行分词
        outStr = ''
        for word in wordList:
            outStr += word
            outStr +=chr(10)+chr(10)+ ' '
        #fout.write(outStr.strip().encode('gbk') + '\n')       #将分词好的结果写入到输出文件
        fout.write(outStr.strip() + '\n')       #将分词好的结果写入到输出文件

fin.close()
fout.close()

splitSentence('myInput.txt', 'myOutput.txt')

========================

#老代码

#
#-*- coding: utf-8 -*-
#code:myhaspl@qq.com
#12-1.py
import sys
reload(sys)
sys.setdefaultencoding("gbk")
sys.path.append("../")
import jieba

def splitSentence(inputFile, outputFile):
    fin = open(inputFile, 'r')                                  #以读的方式打开文件
    fout = open(outputFile, 'w')                                #以写得方式打开文件

    for eachLine in fin:
        line = eachLine.strip().decode('gbk', 'ignore')       #去除每行首尾可能出现的空格，并转为Unicode进行处理
        wordList = list(jieba.cut(line))                        #用结巴分词，对每行内容进行分词
        outStr = ''
        for word in wordList:
            outStr += word
            outStr +=chr(10)+chr(10)+ ' '
        fout.write(outStr.strip().encode('gbk') + '\n')       #将分词好的结果写入到输出文件

    fin.close()
    fout.close()

splitSentence('myInput.txt', 'myOutput.txt')