python实现txt内容合并

前言:继之前两篇博客分别实现pdf转图片和图片转文字之后,我们已经向pdf转文字迈出了里程碑性的一大步。接下来就是最后的txt合并成一个txt,这样就将一整个pdf中的文字都合并到一起了。

java实现pdf转图片 - 优快云博客  https://blog.youkuaiyun.com/yanjiaxin1996/article/details/80561071

Python3.6实现图片转文字 - 优快云博客  https://blog.youkuaiyun.com/yanjiaxin1996/article/details/80457623


摘要:利用简单的文件读写,将多个txt中的内容合并到一个新的txt。

环境:win10+pycharm2018.1

第三方库:无


def main():
    filePath = input(r"输入文件所在地址 如 C:\代码\计算机网络 :")
    fileName = input(r"输入文件名称,不要后面的_1 如 计算机网络 :")
    start=input(r"输入开始合并的页码 如 1 :")
    end=input(r"输入结束合并的页码 如 5 :")

    filePath=filePath.replace(" ","")
    fileName=fileName.replace(" ","")

    text=""
    for i in range(eval(start),eval(end)):
        fr = open(filePath + "\\" + fileName +r"_"+str(i)+r".txt")
        text=text+fr.read()
        fr.close()
    fw=open(filePath + "\\" + fileName +r"_"+start+"-"+end+r".txt", 'a')
    fw.write(text)
    fw.close()

main()


备注:生成的txt文件在原来分散的txt文件夹中。

由于项目并不需要生成可读性较高的总txt,只需要得到大致的文字进行分词即可,故没有进行太多的优化。

### 回答1: 下面是用 Python 实现 txt 文档合并去重的方法: 首先,我们需要准备待合并txt 文档,假设我们有两个 txt 文档,分别为 `doc1.txt` 和 `doc2.txt`。 接着,使用 Python 的 `open()` 函数打开这两个文档,然后使用 `read()` 方法将文件内容读取到内存中,并使用 `split()` 函数将内容按照换行符分割成一个行的列表,如下所示: ```python with open('doc1.txt', 'r') as f: lines1 = f.read().split('\n') with open('doc2.txt', 'r') as f: lines2 = f.read().split('\n') ``` 然后,我们可以使用 Python 的 `set()` 函数将两个列表中的内容去重,然后使用 `extend()` 函数将两个列表合并在一起,代码如下: ```python lines1 = list(set(lines1)) lines2 = list(set(lines2)) lines = lines1 + lines2 ``` 最后,我们使用 `join()` 函数将行列表拼接成字符串,然后使用 `open()` 函数以写入的方式打开一个新的文件,并使用 `write()` 方法将内容写入新的文件中,完整代码如下: ```python content = '\n'.join(lines) with open('merged.txt', 'w') as f: f.write(content) ``` 这样,我们就可以用 Python 实现 txt 文档的合并去重了。 ### 回答2: 在Python中,我们可以使用以下代码来实现txt文档合并去重: ```python # 定义一个空的集合用于存储文本内容 unique_lines = set() # 打开第一个文本文件,并读取内容 with open('file1.txt', 'r') as file: lines = file.readlines() for line in lines: # 将每行文本内容添加到集合中,去除重复的行 unique_lines.add(line.strip()) # 打开第二个文本文件,并读取内容 with open('file2.txt', 'r') as file: lines = file.readlines() for line in lines: # 将每行文本内容添加到集合中,去除重复的行 unique_lines.add(line.strip()) # 打开合并后的文本文件,并将去重后的内容写入 with open('merged_file.txt', 'w') as file: for line in sorted(unique_lines): file.write(line + '\n') ``` 上述代码首先定义了一个空集合`unique_lines`,用于存储文本内容。然后逐个打开文件,读取每个文件的内容,并将每行文本内容添加到集合中。在添加时,集合会自动去除重复的行。最后,按照文本内容的字母顺序,将去重后的内容写入到一个新的合并后的文本文件中。 ### 回答3: 可以使用Python的编程语言来实现txt文档的合并和去重。下面是一个简单的实现过程: 1. 首先,我们需要定义一个函数来从txt文档中读取数据并存储在一个列表中: ```python def read_file(file_path): data = [] with open(file_path, 'r') as file: for line in file: data.append(line.strip()) return data ``` 2. 接下来,我们定义一个函数来合并多个txt文档的内容,并去除重复的行: ```python def merge_and_remove_duplicates(file_paths, output_file): merged_data = [] for file_path in file_paths: data = read_file(file_path) merged_data.extend(data) merged_data = list(set(merged_data)) with open(output_file, 'w') as file: for line in merged_data: file.write(line + '\n') ``` 在这个函数中,我们首先创建一个空列表`merged_data`来存储合并后的数据。然后,我们循环遍历每个文件的路径,并通过调用`read_file`函数读取每个文件中的数据。将每个文件的数据合并到`merged_data`列表中。接下来,我们使用`list(set(merged_data))`来去重并保留顺序。最后,我们将合并后的数据写入到输出文件`output_file`中。 3. 最后,我们可以调用这个函数并传入文档路径作为参数,完成txt文档的合并和去重操作: ```python file_paths = ['file1.txt', 'file2.txt', 'file3.txt'] output_file = 'merged.txt' merge_and_remove_duplicates(file_paths, output_file) ``` 这样,我们就可以将`file1.txt`、`file2.txt`和`file3.txt`三个文档合并为一个`merged.txt`文件,并且去除了重复的行。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值