# 1、安装tika包
pip install tika
# 2、加载读取文件
from tika import parser
def read_doc(file_path):
parsed = parser.from_file(file_path)
text = parsed['content']
return text
# 读取4344315995.doc
file_path = '4344315995.doc'
print(read_doc(file_path))
PS:
1、系统版本: Ubuntu 18.04.1 LTS (GNU/Linux 4.15.0-193-generic x86_64)
2、初次执行:会自适应加载一些服务,耗时会稍微长一些
本文介绍了如何在Ubuntu18.04.1LTS系统中安装Tika库,演示了如何使用`parser.from_file`函数加载并读取4344315995.doc文件,首次执行时由于服务加载可能会稍有延迟。
2859





