自然语言处理之简单文件去重

本文介绍了一个Python程序,该程序能有效去除文本文件中的重复行及空白行,并能够提取长度在4到8个字符之间的中文字符串。此程序适用于PyCharm Community Edition 2017.1.3,使用Python 2.7.13版本进行开发。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

#coding:utf-8
"""
开发程序
"""
"""
程序名称:去重删除空白行并去特定长度字符串
程序功能:删除重复的行,删除空白行,提取特定长度的中文字符串
开发平台:PyCharm Community Edition 2017.1.3
软件版本:Python2.7.13
开始日期:2017-6-2
结束日期:2017-6-3
学习内容:1、每个字符所占字节数;2、set(),open(),strip(),len()等方法的使用;
作   者:李开亮
"""
readDir = r"file source path"
writeDir = "file object path"
lines_seen = set() #set()方法用于对文件去重
outfile=open(writeDir,"w")
f = open(readDir,"r")
for line in f:
    #line=line.strip()  #*.strip()方法用于删除文本文件中的空白行
    if 4<=len(line)<=8:  #通过len()方法可以实现提取特定长度的字符串
        if line not in lines_seen:  #测试 line 是否不是 lines_seen的成员
            outfile.write(line)
            outfile.write('\n')
            lines_seen.add(line)
outfile.close()
print ("success")
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值