前言:继之前两篇博客分别实现pdf转图片和图片转文字之后,我们已经向pdf转文字迈出了里程碑性的一大步。接下来就是最后的txt合并成一个txt,这样就将一整个pdf中的文字都合并到一起了。
java实现pdf转图片 - 优快云博客 https://blog.youkuaiyun.com/yanjiaxin1996/article/details/80561071
Python3.6实现图片转文字 - 优快云博客 https://blog.youkuaiyun.com/yanjiaxin1996/article/details/80457623
摘要:利用简单的文件读写,将多个txt中的内容合并到一个新的txt。
环境:win10+pycharm2018.1
第三方库:无
def main():
filePath = input(r"输入文件所在地址 如 C:\代码\计算机网络 :")
fileName = input(r"输入文件名称,不要后面的_1 如 计算机网络 :")
start=input(r"输入开始合并的页码 如 1 :")
end=input(r"输入结束合并的页码 如 5 :")
filePath=filePath.replace(" ","")
fileName=fileName.replace(" ","")
text=""
for i in range(eval(start),eval(end)):
fr = open(filePath + "\\" + fileName +r"_"+str(i)+r".txt")
text=text+fr.read()
fr.close()
fw=open(filePath + "\\" + fileName +r"_"+start+"-"+end+r".txt", 'a')
fw.write(text)
fw.close()
main()
备注:生成的txt文件在原来分散的txt文件夹中。
由于项目并不需要生成可读性较高的总txt,只需要得到大致的文字进行分词即可,故没有进行太多的优化。