根据txt每行内容长短排序并重新写入txt保存

本文介绍了一种使用Python对TXT文件内容进行排序的方法,特别是针对OCR文字识别中标签文件的处理,通过根据文本长度排序来优化网络训练效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

有时候在处理一些txt文件的时候,需要按照一定的要求对txt内容进行排序,比如我在做一个OCR文字识别的时候,由于标签文件是txt的文本,但是长短不一,且差别大。我用的网络需要按照标签的长短进行排序后形成新的标签txt文件,这时候送人网络训练的效果会比较好。这里不聊网络的事儿哈哈。只聊怎么对txt内容根据它的长短排序

先附一张我排序前的txt的内容:

涉及到隐私照常打码哈哈。这里每行内容是由“ ”空格符分隔的

下边示例怎么根据空格符后边的(也就是右边的内容)内容长短对原始文本进行排序:

不多说,直接上代码:

import os
import os.path

txt_path = 'D:/youxinProjections/trafic-youxin/MobileNet_v1/obtain_qq_json_new/Crop_Ocr_Imgs/'
des_txt_path = 'D:/youxinProjections/trafic-youxin/MobileNet_v1/obtain_qq_json_new/Crop_Ocr_txt/'

txt_files = os.listdir(txt_path)#这里得到的是txt_path路径下所有的txt文件,我这里需要对txt批量处理

def sort_txt_content():
    for txtfile in txt_files:
        if not os.path.isdir(txtfile):
            out_file = open(des_txt_path + txtfile, 'a')#后边参数为'a'时,意味写入时自动换行累加,不用额外添加'\n'符
            in_file = open(txt_path + txtfile, 'r')
            lines = in_file.readlines()
            b = [[line.split(" ")[1]] for line in lines]#这里的b取到的就是空格符右边的内容
            lines.sort(key = lambda b: len(b))

            for line in lines:
                print(line)
                out_file.write(line)#重新写入新的txt文件






if __name__ == '__main__':
    sort_txt_content()

再上一张排序后的结果图:

大功告成!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

HaoRenkk123

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值