制作文本识别训练样本的语料库

最新推荐文章于 2025-05-29 18:16:23 发布

小影a

最新推荐文章于 2025-05-29 18:16:23 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

分类专栏：数据处理文章标签：文本识别数据处理 python

本文链接：https://blog.youkuaiyun.com/qq_28001535/article/details/82878620

数据处理专栏收录该内容

4 篇文章

订阅专栏

本文介绍了一种从小说的txt文件中去除多余字符和换行符的方法，通过读取文件、清理文本并将其转换为单一连续字符串，适用于生成训练样本。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

从网上下载的小说的txt文件往往含有较多的换行符，空格等字符，这在生成训练样本的时候是不需要的，甚至会出错，需要对这些文本进行预处理，将所有行合并成一行，并删除无用的字符，

import random
with open('novels.txt', mode='r', encoding='utf-8') as f:
    data = f.readlines()
    
lines = []
for line in data:
    line_striped = line.strip()
    line_striped = line_striped.replace('\u3000', '')
    line_striped = line_striped.replace('&nbsp', '')
    line_striped = line_striped.replace("\00", "")
    line_striped = line_striped.replace(" ", "")

    if line_striped != u'' and len(line.strip()) > 1:
        lines.append(line_striped)
        # 所有行合并成一行
        split_chars = [',', '，', '：', '-', ' ', ';', '。']
        splitchar = random.choice(split_chars)
        whole_line = splitchar.join(lines)
        #print(len(list(whole_line)))
print(len(set(list(whole_line))))        
print(len(list(whole_line)))

with open('novels_corpus.txt', 'w', encoding='utf-8') as r:
    chars = str(whole_line)
    print(len(chars))
    chars.replace(' ','')  #再次确认删除空格
    print(len(chars))
    r.write(chars)