jieba分词

#-*- coding: gbk -*-
import sys

#pip install jieba    可能 需要两个回车, 才能安装

#inputFile  为 ANSI 格式 文件
sys.path.append("../")
import jieba

def splitSentence(inputFile, outputFile):
    fin = open(inputFile, 'r')                                  #以读的方式打开文件
    fout = open(outputFile, 'w')                                #以写得方式打开文件

    for eachLine in fin:
        line = eachLine.strip()#.decode('gbk', 'ignore')       #去除每行首尾可能出现的空格,并转为Unicode进行处理
        wordList = list(jieba.cut(line))                        #用结巴分词,对每行内容进行分词
        outStr = ''
        for word in wordList:
            outStr += word
            outStr +=chr(10)+chr(10)+ ' '
        #fout.write(outStr.strip().encode('gbk') + '\n')       #将分词好的结果写入到输出文件
        fout.write(outStr.strip() + '\n')       #将分词好的结果写入到输出文件

    fin.close()
    fout.close()

splitSentence('myInput.txt', 'myOutput.txt')

========================

 #老代码

#
#-*- coding: utf-8 -*-
#code:myhaspl@qq.com
#12-1.py
import sys
reload(sys)
sys.setdefaultencoding("gbk")
sys.path.append("../")
import jieba

def splitSentence(inputFile, outputFile):
    fin = open(inputFile, 'r')                                  #以读的方式打开文件
    fout = open(outputFile, 'w')                                #以写得方式打开文件

    for eachLine in fin:
        line = eachLine.strip().decode('gbk', 'ignore')       #去除每行首尾可能出现的空格,并转为Unicode进行处理
        wordList = list(jieba.cut(line))                        #用结巴分词,对每行内容进行分词
        outStr = ''
        for word in wordList:
            outStr += word
            outStr +=chr(10)+chr(10)+ ' '
        fout.write(outStr.strip().encode('gbk') + '\n')       #将分词好的结果写入到输出文件


    fin.close()
    fout.close()

splitSentence('myInput.txt', 'myOutput.txt')

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值