用词库对文章进行切分,但是最后有很多分词也写在后面,怎么判断 文章 已经结束了呢?

本文介绍了一种利用Python进行文本处理的方法,包括文件的读写操作、字符串分割及替换等基本功能,并实现了一个简单的分词流程。通过对指定词库的使用,能够针对特定文档进行高效的词汇分割。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('gbk')



import pandas as pd
import string


def  cuttxt(fname,char):

 f=file(fname,'r')
 string=f.read()
 
 line1=string.split(char)
 f=file(fname,'w+')
 for i in line1:
   if  len(i)>1:
       #print i[0:7]
       if  not  i[0:7]=="       ":
             print i[0:7]
             f.write(i+chr(10)+"       "+char+"       "+chr(10))
       else:
             f.write(i+chr(10))
   #print i+"ok"
   #print char

 f.close()


def  cuttxtline(fname,char):

 f=file(fname,'r')
 string=f.read()
 
 line1=string.split(char)
 f=file(fname,'w+')
 for i in line1:
   if  len(i)>1:
       #print i[0:7]
       if  not  i[0:7]=="       ":
             print i[0:7]
             f.write(i+chr(10)+"       "+char+"       "+chr(10))
       else:
             f.write(i+chr(10))
   #print i+"ok"
   #print char

 f.close()


import shutil
import os


shutil.copy('readme.txt', 'test.txt') #复制文件






def  fuhaoconghoufenge(fname,char):#从分隔符后面切

 f=file(fname,'r')
 string=f.read()
 
 line1=string.split(char)
 f=file(fname,'w+')
 for i in line1:
   if  len(i)>1:
       
             f.write(i.strip()+char+chr(10))

   #print i+"ok"
   #print char

 f.close()




def  fuhaofengedel(fname,char): #分隔符 去掉,不要了

 f=file(fname,'r')
 string=f.read()
 
 line1=string.split(char)
 f=file(fname,'w+')
 for i in line1:
   if  len(i)>1:
       
             f.write(i.strip()+chr(10))

   #print i+"ok"
   #print char

 f.close()

def  hebing(fname,char1,char2): #分隔符 去掉,不要了

 f=file(fname,'r')
 string=f.read()
 
 line1=string.split(char1+chr(10)+char2)
 f=file(fname,'w+')
 for i in line1:
   if  len(i)>3:
       
             f.write(i.strip()+chr(10)+char1+char2+chr(10))

   #print i+"ok"
   #print char

 f.close()



def lianggecidoubufenkai(fname,char1,char2):

  fuhaocongqianhoufenge(fname,char2)
  hebing(fname,char1,char2)




#s =unicode(str1)  # 将中英文统一成 一个字符, 然后开始处理

#for i  in  range(len(s)+1):

              
            
#         print s[i:i+1]



def  tihuan(fname,char,char1): #分隔符 去掉,不要了

 f=file(fname,'r')
 string=f.read()
 
 line1=string.split(char)
 f=file(fname,'w+')
 for i in line1:
   if  len(i)>1:
       
             f.write(i.strip()+chr(10))

   #print i+"ok"
   #print char

 f.close()

def  replacetxt(fname,char,char1):

 f=file(fname,'r')
 string=f.read()
 line1=string.split(char)
 f=file(fname,'w+')
 
 for i in line1:
   f.write(char1+i)


 f.close()

#######################


import shutil
import os


fnamezx='dicc1.csv'

fnamezxk='test.txt'

 #复制文件



shutil.copy('readme.txt',fnamezxk)




#把csv读入数据库,取每一行,

#然后对文章xxxx.txt分词,这应该是前后分



def duiwenzhangfenci (fname1, fname2):  #用词库fname2对文件fname1分词

   df=pd.DataFrame(pd.read_csv(fname2,header=0))   


   for indexs in df.index:

       char12k=df['word'].iloc[indexs]
       
       
       fuhaocongqianhoufenge(fname1,char12k)

def fuhaocongqianhoufenge(fname,char):#从分隔符后面切


 f=file(fname,'r')
 string=f.read()

 line1=string.split(char)
 
 f=file(fname,'w+')
 for i in line1:
   if  len(i)>1:
       
             f.write(i.strip()+chr(10)+char+chr(10))


 f.close()


############

duiwenzhangfenci (fnamezxk, fnamezx)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值