【python】office操作,doc转docx、ppt,pptx转pdf,pdf转txt

本文介绍如何使用LibreOffice进行文档格式转换,包括doc到pdf、docx、ppt到pptx等,同时提供Python脚本实现docx文字提取及利用Python库将pdf转换为png图像的方法,并演示了如何从pdf中抽取文本。

1.安装liboffice

sudo apt-get install libreoffice
sudo apt-get install libreoffice-l10n-zh-cn libreoffice-help-zh-cn

2.转换

libreoffice --headless --convert-to pdf 123.doc     #  doc转pdf
libreoffice --headless --convert-to pdf 1234.pptx   # pptx转pdf
libreoffice --headless --convert-to pdf 1234.ppt    # ppt转pdf
libreoffice --headless --convert-to docx 123.doc    # doc转docx
libreoffice --headless --convert-to pptx 123.ppt    # ppt转pptx

3.提取docx的文字
3.1 安装包

pip install python-docx

3.2 python提取

from docx import Document

path = r"./data/123.docx"
document = Document(path)
for paragraph in document.paragraphs:
    print(paragraph.text)

4.pdf转png
4.1 安装包

pip install fitz
pip install PyMuPDF

4.2 pdf转png

# -*- coding: utf-8 -*-
import os
import fitz

# pdf
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值