用词库对文章进行切分，但是最后有很多分词也写在后面，怎么判断文章已经结束了呢？

本文链接：https://blog.youkuaiyun.com/unikran2018/article/details/79504613

本文介绍了一种利用Python进行文本处理的方法，包括文件的读写操作、字符串分割及替换等基本功能，并实现了一个简单的分词流程。通过对指定词库的使用，能够针对特定文档进行高效的词汇分割。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('gbk')

import pandas as pd
import string

def cuttxt(fname,char):

f=file(fname,'r')
string=f.read()

line1=string.split(char)
f=file(fname,'w+')
for i in line1:
   if len(i)>1:
       #print i[0:7]
       if not i[0:7]=="       ":
             print i[0:7]
             f.write(i+chr(10)+"       "+char+"       "+chr(10))
       else:
             f.write(i+chr(10))
   #print i+"ok"
   #print char

f.close()

def cuttxtline(fname,char):

f=file(fname,'r')
string=f.read()

line1=string.split(char)
f=file(fname,'w+')
for i in line1:
   if len(i)>1:
       #print i[0:7]
       if not i[0:7]=="       ":
             print i[0:7]
             f.write(i+chr(10)+"       "+char+"       "+chr(10))
       else:
             f.write(i+chr(10))
   #print i+"ok"
   #print char

f.close()

import shutil
import os

shutil.copy('readme.txt', 'test.txt') #复制文件

def fuhaoconghoufenge(fname,char):#从分隔符后面切

f=file(fname,'r')
string=f.read()

line1=string.split(char)
f=file(fname,'w+')
for i in line1:
   if len(i)>1:

             f.write(i.strip()+char+chr(10))

   #print i+"ok"
   #print char

f.close()

def fuhaofengedel(fname,char): #分隔符去掉，不要了

f=file(fname,'r')
string=f.read()

line1=string.split(char)
f=file(fname,'w+')
for i in line1:
   if len(i)>1:

             f.write(i.strip()+chr(10))

   #print i+"ok"
   #print char

f.close()

def hebing(fname,char1,char2): #分隔符去掉，不要了

f=file(fname,'r')
string=f.read()

line1=string.split(char1+chr(10)+char2)
f=file(fname,'w+')
for i in line1:
   if len(i)>3:

             f.write(i.strip()+chr(10)+char1+char2+chr(10))

   #print i+"ok"
   #print char

f.close()

def lianggecidoubufenkai(fname,char1,char2):

fuhaocongqianhoufenge(fname,char2)
hebing(fname,char1,char2)

#s =unicode(str1) # 将中英文统一成一个字符，然后开始处理

#for i in range(len(s)+1):



#         print s[i:i+1]

def tihuan(fname,char,char1): #分隔符去掉，不要了

f=file(fname,'r')
string=f.read()

line1=string.split(char)
f=file(fname,'w+')
for i in line1:
   if len(i)>1:

             f.write(i.strip()+chr(10))

   #print i+"ok"
   #print char

f.close()

def replacetxt(fname,char,char1):

f=file(fname,'r')
string=f.read()
line1=string.split(char)
f=file(fname,'w+')

for i in line1:
   f.write(char1+i)

f.close()

#######################

import shutil
import os

fnamezx='dicc1.csv'

fnamezxk='test.txt'

#复制文件

shutil.copy('readme.txt',fnamezxk)

#把csv读入数据库，取每一行，

#然后对文章xxxx.txt分词，这应该是前后分

def duiwenzhangfenci (fname1, fname2): #用词库fname2对文件fname1分词

   df=pd.DataFrame(pd.read_csv(fname2,header=0))

   for indexs in df.index:

       char12k=df['word'].iloc[indexs]


       fuhaocongqianhoufenge(fname1,char12k)

def fuhaocongqianhoufenge(fname,char):#从分隔符后面切

f=file(fname,'r')
string=f.read()

line1=string.split(char)

f=file(fname,'w+')
for i in line1:
   if len(i)>1:

             f.write(i.strip()+chr(10)+char+chr(10))

f.close()

############

duiwenzhangfenci (fnamezxk, fnamezx)