利用python批量将office格式(word、PPT、Excel)转换为PDF

一、python的安装

python 3 10 5的安装

二、python编辑器的安装

在这里我使用的是VS code 1.62.3

三、pywin32库的安装

在CMD里面使用pip install pywin32进行安装

四、全部代码

import os, win32com.client, gc

# Word
def word2Pdf(filePath, words):
    # 如果没有文件则提示后直接退出
    if(len(words)<1):
        print ("\n【无 Word 文件】\n")
        return
    # 开始转换
    print ("\n【开始 Word -> PDF 转换】")
    try:
        print ("打开 Word 进程...")
        word = win32com.client.Dispatch("Word.Application")
        word.Visible = 0
        word.DisplayAlerts = False
        doc = None
        for i in range(len(words)):
            print(i)
            fileName = words[i] # 文件名称
            fromFile = os.path.join(filePath, fileName) # 文件地址
            toFileName = changeSufix2Pdf(fileName) # 生成的文件名称
            toFile = toFileJoin(filePath,toFileName) # 生成的文件地址

            print ("转换:"+fileName+"文件中...")
            # 某文件出错不影响其他文件打印
            try:
                doc = word.Documents.Open(fromFile)
                doc.SaveAs(toFile,17) # 生成的所有 PDF 都会在 PDF 文件夹中
                print ("转换到:"+toFileName+"完成")
            except Exception as e:
                print(e)
            # 关闭 Word 进程
        print ("所有 Word 文件已打印完毕")
        print ("结束 Word 进程...\n")
        doc.Close()
        doc = None
        word.Quit()
        word = None 
    except Exception as e:
        print(e)
    finally:
        gc.collect()

# Excel
def excel2Pdf(filePath, excels):
    # 如果没有文件则提示后直接退出
    if(len(excels)<1):
        print ("\n【无 Excel 文件】\n")
        return
    # 开始转换
    print ("\n【开始 Excel -> PDF 转换】")
    try:
        print ("打开 Excel 进程中...")
        excel = win32com.client.Dispatch("Excel.Application")
        excel.Visible = 0
        excel.DisplayAlerts = False
        wb = None
        ws = None
        for i in range(len(excels)):
            print(i)
            fileName = excels[i] # 文件名称
            fromFile = os.path.join(filePath, fileName) # 文件地址
            
            print ("转换:"+fileName+"文件中...")
            # 某文件出错不影响其他文件打印
            try:
                wb = excel.Workbooks.Open(fromFile)
                for j in range(wb.Worksheets.Count): # 工作表数量,一个工作簿可能有多张工作表
                    toFileName = addWorksheetsOrder(fileName, j+1) # 生成的文件名称
                    toFile = toFileJoin(filePath,toFileName) # 生成的文件地址
                    
                    ws = wb.Worksheets(j+1) # 若为[0]则打包后会提示越界
                    ws.ExportAsFixedFormat(0,toFile) # 每一张都需要打印
                    print ("转换至:"+toFileName+"文件完成")
            except Exception as e:
                print(e)
        # 关闭 Excel 进程
        print ("所有 Excel 文件已打印完毕")
        print ("结束 Excel 进程中...\n")
        ws = None
        wb.Close()
        wb = None
        excel.Quit()
        excel = None
    except Exception as e:
        print(e)
    finally: 
        gc.collect()

# PPT
def ppt2Pdf(filePath, ppts):
    # 如果没有文件则提示后直接退出
    if(len(ppts)<1):
        print ("\n【无 PPT 文件】\n")
        return
    # 开始转换
    print ("\n【开始 PPT -> PDF 转换】")
    try:
        print ("打开 PowerPoint 进程中...")
        powerpoint = win32com.client.Dispatch("PowerPoint.Application")
        ppt = None
        # 某文件出错不影响其他文件打印

        for i in range(len(ppts)):
            print(i)
            fileName = ppts[i] # 文件名称
            fromFile = os.path.join(filePath, fileName) # 文件地址
            toFileName = changeSufix2Pdf(fileName) # 生成的文件名称
            toFile = toFileJoin(filePath,toFileName) # 生成的文件地址

            print ("转换:"+fileName+"文件中...")
            try:
                ppt = powerpoint.Presentations.Open(fromFile,WithWindow=False)
                if ppt.Slides.Count>0:
                    ppt.SaveAs(toFile, 32) # 如果为空则会跳出提示框(暂时没有找到消除办法)
                    print ("转换至:"+toFileName+"文件完成")
                else:
                    print("(错误,发生意外:此文件为空,跳过此文件)")
            except Exception as e:
                print(e)
        # 关闭 PPT 进程
        print ("所有 PPT 文件已打印完毕")
        print ("结束 PowerPoint 进程中...\n")
        ppt.Close()
        ppt = None
        powerpoint.Quit()
        powerpoint = None
    except Exception as e:
        print(e)
    finally:
        gc.collect()

# 修改后缀名
def changeSufix2Pdf(file):
    return file[:file.rfind('.')]+".pdf"
# 添加工作簿序号
def addWorksheetsOrder(file, i):
    return file[:file.rfind('.')]+"_工作表"+str(i)+".pdf"
# 转换地址
def toFileJoin(filePath,file):
    return os.path.join(filePath,'pdf',file[:file.rfind('.')]+".pdf")
    


# 开始程序
print ("====================程序开始====================")
print ("【程序功能】将目标路径下内所有的 ppt、excel、word 均生成一份对应的 PDF 文件,存在新生成的 pdf 文件夹中(需已经安装office,不包括子文件夹)")
print ("注意:若某 PPT 和 Excel 文件为空,则会出错跳过此文件。若转换 PPT 时间过长,请查看是否有报错窗口等待确认,暂时无法彻底解决 PPT 的窗口问题(为空错误已解决)。在关闭进程过程中,时间可能会较长,十秒左右,请耐心等待。")
filePath = input ("输入目标路径:(若为当前路径:"+os.getcwd()+",请直接回车)\n")

# 目标路径,若没有输入路径则为当前路径
if(filePath==""):
    filePath = os.getcwd()

# 将目标文件夹所有文件归类,转换时只打开一个进程
words = []
ppts = []
excels = []

for fn in os.listdir(filePath):
    if fn.endswith(('.doc', 'docx')):
        words.append(fn)
    if fn.endswith(('.ppt', 'pptx')):
        ppts.append(fn)
    if fn.endswith(('.xls', 'xlsx')):
        excels.append(fn)

# 调用方法
print ("====================开始转换====================")

# 新建 pdf 文件夹,所有生成的 PDF 文件都放在里面
folder = filePath + '\\pdf\\'
if not os.path.exists(folder):
    os.makedirs(folder)

word2Pdf(filePath,words)
excel2Pdf(filePath,excels)
ppt2Pdf(filePath,ppts)
print ("====================转换结束====================")
print ("\n====================程序结束====================")
os.system("pause")


五、运行

将代码复制到python编辑器之后,运行,会弹出如下对话框

在这里插入图片描述
在我圈起来的地方输入需要转换的文件夹下的文件路径即可:D:\2(你自己根据实际情况来输入文件路径)
等待转换
在这里插入图片描述
完成
在这里插入图片描述
在这里插入图片描述

六、将其打包为可执行的.exe文件

1、首先安装pyinstaller,使用安装命令:pip3 install pyinstaller,如下图所示。

在这里插入图片描述

2、然后将第五步的代码制作为.py文件,并且命名(我命名为:Office2PDF.py

在这里插入图片描述

方法一:pyinstaller-F

我们来将这个.py的文件打包成一个exe,我们直接cmd切换到这个脚本的目录,执行命令:pyinstaller-F D:\Office2PDF.py,如下图所:

在这里插入图片描述

在这里介绍一下,D:\Office2PDF.py表示我要打包的文件路径,下面我圈起来的部分,表示打包为.exe路径

在这里插入图片描述
在这里插入图片描述

方法二:pyinstaller -D 打包

我们来将这个.py的文件打包成一个exe,我们直接cmd切换到这个脚本的目录,执行命令:pyinstaller -D D:\Office2PDF.py,如下图所:

在这里介绍一下,D:\Office2PDF.py表示我要打包的文件路径,下面我圈起来的部分,表示打包为.exe路径

在这里插入图片描述
在这里插入图片描述

七、程序获取

https://wws.lanzoul.com/ir6HZ07cwkah
密码的话,关注这个公众号,然后回复:提取码

在这里插入图片描述

### 将PDF文件转换Excel文件的方法和工具 将PDF文件转换Excel文件是一项常见的需求,尤其是在处理财务报表、表格数据或其他结构化文档时。以下是几种方法和工具可以实现这一目标: #### 方法一:使用开源库 一些开源库可以帮助开发者通过编程方式完成PDFExcel转换。 - **Apache Tika**: 这是一个用于提取嵌入式元数据和结构化文本的内容分析工具包。它可以解析多种格式的文件,包括PDF,并将其内容导出为其他格式[^2]。 - **Tabula-Py**: Tabula 是一个专门设计用来从PDF中提取表格数据并保存为CSV或Excel格式的工具。它支持Python接口,方便集成到自动化流程中[^2]。 ```python from tabula import read_pdf df = read_pdf("path/to/pdf_file.pdf", pages='all') df.to_excel("output.xlsx", index=False) ``` 上述代码片段展示了如何利用 `tabula-py` 库读取PDF中的表格并将它们写入Excel文件。 --- #### 方法二:在线服务 如果不想安装任何软件或者编写脚本,可以选择在线平台来快速完成转换任务。 - **Smallpdf (https://smallpdf.com)** 和 **ILovePDF (https://www.ilovepdf.com)** 提供免费版以及高级功能订阅选项的服务,允许用户上传他们的PDF文档并通过简单的点击操作下载对应的Excel版本[^1]。 注意,在线解决方案可能涉及隐私风险,尤其是当涉及到敏感商业信息的时候应谨慎考虑是否适合采用此类途径[^4]。 --- #### 方法三:桌面应用程序 对于那些偏好本地应用而非依赖网络连接的人群来说,还有几个不错的桌面端选择可供参考: - **Adobe Acrobat Pro DC**: Adobe自家出品的强大编辑器不仅限于创建/查看PDF还具备强大的OCR识别能力从而能够更精确地捕捉原始布局下的单元格边界进而成功迁移至电子表格形式下展示出来[^3]。 - **Wondershare PDFelement**: 另一款性价比高的跨平台产品同样提供了类似的特性集即可以把扫描件变成可编辑文字的同时保留原有的视觉效果以便后续进一步加工处理成为XLS(X)档案档存档用途[^3]. 这些专用的应用程序通常会提供更好的用户体验和支持更多的复杂场景比如多页连续表头列尾等情况下的适配调整等等. --- ### 总结 无论是寻求灵活性还是追求效率,都有众多资源可用以满足不同层次的需求——从易于使用的图形界面直到高度定制化的编码实践均能找到合适的切入点去达成目的;不过具体选用哪一种取决于个人喜好和技术背景等因素综合考量之后再做决定最为稳妥合理些罢了!
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值