Linux下读取doc,docx文件

本文介绍如何在Linux环境下使用WPS for Linux处理.docx文件,并通过Python-docx包读取文档内容。对于不支持的.doc文件,推荐使用antiword进行转换,详细步骤包括下载、编译及环境变量配置。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

如果是Linux Desktop发行版本,可以下载wps for linux
docx文件
利用python-docx

test.py

# -*- coding:utf-8 -*-
import sys
import docx

path = sys.argv[1]

file = docx.Document(path)
for para in file.paragraphs:
	print(para.text)

使用命令行传参数

python test.py filename

例子
在这里插入图片描述

doc文件

python-docx不支持doc文件的
我们可以使用antiword,下载完,解压,进入该文件,分别使用makemake install。安装完后,主目录会出现bin文件夹,用命令行进入。使用pwd查看该目录的路径。

使用su,输入密码,然后设置环境变量

PATH=$PATH: bin path(输入上面pwd出现的路径)

echo $PATH查看PATH是否成功导入。
成功导入后,我们就可以在任何的shell和路径使用antiword了。

EX
在这里插入图片描述

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值