使用python的docx包,解析docx文档。
from docx import Document
def read_file(src_path):
'''
读取docx文档的文本内容
@param src_path: 文档地址
@return: 文本内容
'''
doc = Document(src_path)
contents = []
for para in doc.paragraphs:
contents.append(para.text)
return '\n'.join(contents)
def get_tables(src_path):
'''
读取docx文档的表格信息
@param src_path: 文档地址
@return: 表格
'''
doc = Document(src_path)
tables = doc.tables
return tables