1.安装liboffice
sudo apt-get install libreoffice
sudo apt-get install libreoffice-l10n-zh-cn libreoffice-help-zh-cn
2.转换
libreoffice --headless --convert-to pdf 123.doc # doc转pdf
libreoffice --headless --convert-to pdf 1234.pptx # pptx转pdf
libreoffice --headless --convert-to pdf 1234.ppt # ppt转pdf
libreoffice --headless --convert-to docx 123.doc # doc转docx
libreoffice --headless --convert-to pptx 123.ppt # ppt转pptx
3.提取docx的文字
3.1 安装包
pip install python-docx
3.2 python提取
from docx import Document
path = r"./data/123.docx"
document = Document(path)
for paragraph in document.paragraphs:
print(paragraph.text)
4.pdf转png
4.1 安装包
pip install fitz
pip install PyMuPDF
4.2 pdf转png
# -*- coding: utf-8 -*-
import os
import fitz
# pdf

本文介绍如何使用LibreOffice进行文档格式转换,包括doc到pdf、docx、ppt到pptx等,同时提供Python脚本实现docx文字提取及利用Python库将pdf转换为png图像的方法,并演示了如何从pdf中抽取文本。
最低0.47元/天 解锁文章
2480

被折叠的 条评论
为什么被折叠?



