制作文本识别训练样本的语料库

本文介绍了一种从小说的txt文件中去除多余字符和换行符的方法,通过读取文件、清理文本并将其转换为单一连续字符串,适用于生成训练样本。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

从网上下载的小说的txt文件往往含有较多的换行符,空格等字符,这在生成训练样本的时候是不需要的,甚至会出错,需要对这些文本进行预处理,将所有行合并成一行,并删除无用的字符,

import random
with open('novels.txt', mode='r', encoding='utf-8') as f:
    data = f.readlines()
    
lines = []
for line in data:
    line_striped = line.strip()
    line_striped = line_striped.replace('\u3000', '')
    line_striped = line_striped.replace('&nbsp', '')
    line_striped = line_striped.replace("\00", "")
    line_striped = line_striped.replace(" ", "")

    if line_striped != u'' and len(line.strip()) > 1:
        lines.append(line_striped)
        # 所有行合并成一行
        split_chars = [',', ',', ':', '-', ' ', ';', '。']
        splitchar = random.choice(split_chars)
        whole_line = splitchar.join(lines)
        #print(len(list(whole_line)))
print(len(set(list(whole_line))))        
print(len(list(whole_line)))

with open('novels_corpus.txt', 'w', encoding='utf-8') as r:
    chars = str(whole_line)
    print(len(chars))
    chars.replace(' ','')  #再次确认删除空格
    print(len(chars))
    r.write(chars)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值