Python3-word文档操作（八）：提取word文档中的图片方式一-利用docx库

原创已于 2022-08-22 21:23:38 修改 · 6.1k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#docx #python docx #python docx库 #python word

于 2022-07-06 14:58:57 首次发布

Python学习笔记专栏收录该内容

84 篇文章

订阅专栏

博客介绍了获取Word文档中图片的方法，提到可使用zip库和docx库实现。上一篇已介绍zip库方法，本篇重点介绍docx库。核心思路是用docx库创建doc，获取doc.part._rels属性来查找图片文件，并给出了相关代码及运行结果。

部署运行你感兴趣的模型镜像

1. 简介：

要获取word文档中的图片文件。思路就是先解压，再查找。python中，下面两个库都可以实现这个功能：

（1）zip库

（2）docx库

zip库：

上一篇博文已经提过，word本质上也是一个压缩文件，word文档中的img文件可以在解压后的文件中找到。所以，可以使用unzip进行解压，再查找img的方式来找到img文件。这种方式，请移步至：

Python3-word文档操作（七）：提取word文档中的图片方式一-利用word文档的压缩文件属性

本篇中，主要介绍docx库来实现word文档中的图片的获取。

2.使用docx库获取word中的图片：

核心思路：

1）使用docx库来实现；

2）创建一个doc，获取doc.part._rels属性，这是一个目录，根据这个属性，再一步一步找图片文件。

代码如下：

# -*- coding: utf-8 -*-
import os
import sys
import re
import time
import docx
from docx.shared import RGBColor
from docx.shared import Pt

#抓取word文件中的图片
def fetch_image(doc_path, desc_path):
    doc = docx.Document(doc_path)
    dict_rel = doc.part._rels #rels其实是个目录
    for rel in dict_rel:
        rel = dict_rel[rel]
        print("rel",rel.target_ref)
        if "image" in rel.target_ref:
            # create_dir(desc_path)
            img_name = re.findall("/(.*)", rel.target_ref)[0]  #windos:/
            print("img_name",img_name)
            word_name = os.path.splitext(doc_path)[0]
            print("word_name",word_name)
            if os.sep in word_name:
                new_name = word_name.split('\\')[-1]
            else:
                new_name = word_name.split('/')[-1]
            img_name = f'{new_name}_{img_name}'
            with open(f'{desc_path}/{img_name}', "wb") as f:
                f.write(rel.target_part.blob)


def get_image():
    doc_name = "念奴娇_赤壁怀古.docx"
    desc_path = sys.argv[1]
    pwd = os.path.dirname(os.path.abspath(desc_path))
    print("[get_image]desc_path",desc_path)
    desc_path = os.path.join(pwd, desc_path) #目标路径
    fetch_image(doc_name,desc_path)

#创建目录
def create_dir(desc_path):
    if not os.path.exists(desc_path):
        os.makedirs(desc_path)

if __name__ == '__main__':
    #create_doc()
    #fetch_doc()
    #update_doc()
    #create_doc_table()
    #fetch_doc_table()
    #modify_doc_table()
    get_image()

运行结果：

可以看出，我们成功的获取到了这个img文件。

说明：

1）get_image：设置要处理的word文件；调用fetch_image函数；

2）fetch_image：核心函数，用于获取word文件中的图片；

3）获取word文档的实例，再遍历 doc.part._rels。
doc = docx.Document(doc_path)
dict_rel = doc.part._rels #rels其实是个目录

4）如果找到img文件，就创建，即写数据到文件中：

f.write(rel.target_part.blob)