python 爬取图片并保存至docx

最新推荐文章于 2023-09-14 11:18:20 发布

原创最新推荐文章于 2023-09-14 11:18:20 发布 · 1.4k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#python

Python 同时被 3 个专栏收录

67 篇文章

订阅专栏

Python；数据分析

15 篇文章

订阅专栏

爬虫

4 篇文章

订阅专栏

#!/usr/bin/evn python
# -*- coding: utf-8 -*-

import os
import time

import requests
from docx import Document
from docx.shared import Inches


class MyObject(object):
    def __init__(self):
        self.doc = Document()

    def get_url(self, id):
        response = requests.get('http://***/img/pict-%d.png' % id)
        pic_dic = "%s.jpg" % str(id)
        with open(pic_dic, "wb")as f:
            f.write(response.content)
        self.doc.add_picture(pic_dic, width=Inches(6))  # 添加图, 设置宽度

        os.remove(pic_dic)

    def main(self):
        for id in range(1, 42):
            self.get_url(id)
        self.doc.save('XXX.docx')


if __name__ == '__main__':
    t0 = time.time()

    mo = MyObject()
    mo.main()

    print("耗时：", time.time() - t0)

不知道如何直接保存爬取的图片到docx，只能先保存图片，在保存到docx，再删除图片。
doc.add_picture(pic_dic)

安装: pip install python-docx

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

墨小青的程序园

关注关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

用python爬取网页并导出为word文档.docx

05-06

本篇内容将介绍如何利用Python爬虫抓取网页内容，并将其存储到MongoDB数据库中，形成可管理的文档型数据。首先，Python中的`requests`库是用于发送HTTP请求的工具，它能够帮助我们获取网页的HTML源码。例如，在...

Python爬取图片链接的Ico图片.docx

08-25

本示例主要讲解如何使用Python爬取并下载Ico格式的图片，以及如何使用正则表达式筛选特定类型的图片链接。以下是对相关知识点的详细说明： 1. Python爬虫基础： Python提供了多个库来帮助开发者实现网络请求和数据...

参与评论您还未登录，请先登录后发表或查看评论

Python爬虫将爬取的图片写入world文档

he_string的博客

11-19

1万+

作为初学爬虫的我，无论是爬取文字还是图片，都可以游刃有余的做到，但是爬虫所爬取的内容往往不是单独的图片或者文字，于是我就想是否可以将图片保存至world文档里

python 解析docx文档的方法，以及利用Python从docx文档提取插入的文本对象和图片...

dianjie9145的博客

06-18

2817

首先安装docx模块，通过pip install docx或者在docx官方链接上下载安装都可以下面来看下如何解析docx文档：文档格式如下有3个部分组成 1 正文:text文档 2 一个表格。 3一个插入的文件对象。4 一个图片这4个部分是我们在docx文档中最常见的几种格式。解析代码如下 import docx def docx_try(): doc=do...

自动爬取给定的多个网址的网页内容，提取文本和标题，图片，并将标题和文本，图片存储到doc格式的文件中，直接写python代码

weixin_35748962的博客

12-21

358

好的，这里是一个例子，希望能帮到你： import requestsfrom bs4 import BeautifulSoup from docx import Document # 创建doc文件 document = Document() urls = ['https://www.example1.com', 'https://www.example2.com'] # 遍历所有给定的网址...

【Python】抓取网页图片并保存到本地和Word（ImagePIL和python-docx的使用）

一往无前

09-07

1252

记录爬虫利用pyquery爬虫保存图片时遇到的一些问题： 1. cannot write mode P as JPEG 解决办法：将模式“P”转化为“RGB”模式 if img.mode == "P": img = img.convert('RGB') 2.(PIL) Image.save保存图片后，图片大小为0KB 解决办法：设置quality参数 im.save(img_name, quality=95) 3.Inches(self.px_width / self.hor...

1000道Python题库系列分享17（17道判断题）

董付国的Python专栏

11-18

513

本期题目（参考答案在文末）：温馨提示进入公众号，通过菜单“最新资源”==>“历史文章”可以快速查看分专题的文章列表，通过“最新资源”==>“微课专区”可以观看Python微课，...

python爬取文章标题和内容并保存为word_Python爬取博客的所有文章并存为带目录的word文档(实例67)...

weixin_39741459的博客

12-17

1453

看上博客上一个作者的文章，想一次性下载到一个word文件中，并且可以设置好目录，通过word的“导航窗格”快速定位单篇文章。一劳永逸，从此再也不用去博客上一篇一篇地翻阅了。整理一下步骤：先获取到所有文章的标题、发表日期、链接通过链接获取文章的内容将文章标题作为“1级”，发表日期和内容作为正文写入word文件保存wrod文件下面就按照以上步骤进行操作。先进入到目标博客的主页，点击“博文目录”，这样就...

爬取单张图片.docx

12-29

爬取单张图片是爬虫技术的一种应用，通过发送HTTP请求，抓取网络上的图片数据，并将其保存到本地。例如，使用Python的socket库和Requests库，可以实现爬取单张图片的功能。五、爬虫技术在实际应用中的应用爬虫...

Python读取doc文件中的图片

zhoudapeng01的专栏

02-24

6278

最近需要搜集整理doc文件中的图片和内容，由于数据量比较大，尝试使用Python进行内容提取。网上找了很多资料，利用Win32com组件应该可以实现，但是其中读取表格和图片的方法比较复杂，弄了半天没搞出来。网上还有一个叫docx的库，其中的接口函数看着比较简单，但缺点是不能处理doc只能处理docx，并且也不能处理图片。好在docx格式本身也是一种压缩格式，可以通过解压缩的方式提取图片，最后把他们...

Python将本地图片存储到Word文档

xuege2017的博客

11-27

1万+

想要利用Python来操作word文档可以使用docx模块. 安装: pip install python-docx from docx import Document from docx.shared import Inches string = '文字内容' images = '1.jpg' # 保存在本地的图片 doc = Document() # doc对象 doc.a...

python-docx刨析之提取图片

JovenGeek的博客

01-31

8884

python-docx刨析之提取图片网上有很多教程是用 zipfile 来提取 docx 文件内的图片，这种方法很难准确的获取确定位置的图片。我分析了下源码，终于找到了方法。函数代码如下 import docx from docx.document import Document from docx.text.paragraph import Paragraph from docx.image.image import Image from docx.parts.image import ImageP

Python提取Word中的图片

热门推荐

地理信息系统、摄影测量与遥感、人工智能

08-14

3万+

Python提取PDF中的图片(需要的自取）： Python提取PDF中的图片最近项目需要把word、PDF中的图片专门提取出来保存到另外的文件夹，最终成功实现；最近项目需要把word、PDF中的图片专门提取出来保存到另外的文件夹，最终成功实现；最近项目需要把word、PDF中的图片专门提取出来保存到另外的文件夹，最终成功实现；重要的事情说三遍，详细步骤记录如下：目录 ............

python代码批量读取图片,将图片的路径保存至txt文件中&&DOC命令批量处理图片

wjfdsklfdkfksd的博客

03-18

2628

最近做人脸识别遇到了这样一个问题，需要遍历orl_faces文件夹下的所有照片，并将其路径名写入到一个文本文件中。上网看了好多的博客，发现代码不是不好使就是收费。特开此贴，防止自己忘记也能帮助网友。一共两种方法；法一：doc命令确实生成了这样的文件，具体方很多，就三个命令即可。看图。法二：由于python强大的数据处理功能，使用python完成此功能。现在附上代码，希望...

python爬取微信公众号图片并生成word文档

weixin_46153372的博客

07-10

1122

python爬取微信公众号图片并生成word文档由于微信公众号中，有些推文是以图片的形式推送，若想提取图片，需要先下载下来。如果图片数量多，就需要更多的时间，降低效率。因此写下此代码，可以将推文图片提取并插入word中生成文档，以提高提取效率。一、代码 # -*- coding = utf-8 -*- # @Time : 2021/7/10 21:07 # @Author : 陈良兴 # @File : p

利用python工具提取多个word中的图片和表格

百里飞猴的博客

09-14

1355

由于工作因素，经常要对多个文档内容进行查重，文字类可以借助查重工具辅助，但图片和表格只能依靠鼠标滚轮还有笔者的打工眼。久而久之，眼睛废了，肩颈也吃不消了（-.-）。于是乎，就想用脚本批量导出，从而提高效率。

python将图片批量保存至word文档中

qq_24591139的博客

11-18

4048

def picture_docx(path_picture,path_docx): # 要插入的图片所在的文件夹 #fold = 'C:\\Users\\Administrator\\Desktop\\tu' fold = path_picture # os.walk(fold)没有返回值，所以这么做显然没有结果，是错的 # pics=list(os.walk(fold)[3]) # # pics.pop() # print(pics) #

python word保存图_python实现word内图片的提取

weixin_35766215的博客

03-01

1149

前言.docx文件其实也就是一个压缩文件，当我们将一个docx文件扩展该为zip后可以看到如下目录其中我们要找的图片就在word/media目录内，如图所以，要提取word内的图片就需要将docx弄成zip文件，然后解压，在从media文件内取得图片，然后再将zip文件弄成docx文件(或者可以直接拷贝一份源文件，将扩展改为zip文件，用完后直接将zip文件删除)代码实现注：以下代码只适用于doc...

爬取网页图文保存为docx文档

最新发布

02-27

### Python 爬虫抓取网页图文内容并保存为 DOCX 文件为了实现从网页上抓取图文内容并将这些内容保存到 `.docx` 文档中，通常需要以下几个步骤： #### 使用 `requests` 和 `BeautifulSoup` 获取网页数据首先，利用 `requests` 库来获取目标网站的数据流。接着通过 `BeautifulSoup` 解析 HTML 页面结构，提取所需的文字和图像链接。 ```python import requests from bs4 import BeautifulSoup url = 'http://example.com' # 替换成实际网址 response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') ``` #### 下载图片资源对于页面中的每一张图片，可以通过其 URL 进行下载操作，并将其存储至本地文件夹内以便后续处理[^1]。 ```python images_folder = './images/' os.makedirs(images_folder, exist_ok=True) for img_tag in soup.find_all('img'): src = img_tag['src'] filename = os.path.join(images_folder, os.path.basename(src)) with open(filename, mode='wb') as f: image_data = requests.get(src).content f.write(image_data) ``` #### 创建 Word 文档对象引入 `python-docx` 来创建一个新的 Word (.docx) 文件实例，在其中添加段落、表格以及插入之前所下载好的图片等元素[^3]。 ```python from docx import Document from docx.shared import Inches document = Document() ``` #### 向文档中添加文字与图片遍历解析后的 HTML 结构，依次向文档里追加相应的文本节点；当遇到 `<img>` 标签时，则读取对应的本地路径下的二进制数据作为插图加入到当前段落后方[^2]。 ```python for element in soup.body.descendants: if isinstance(element, str): # 处理纯文本部分 document.add_paragraph(element.strip()) elif element.name == 'p': # 对于 <p> 段落标签特别对待 p = document.add_paragraph('') for child in element.children: if hasattr(child, 'name') and child.name == 'img': try: rel_path = images_folder + os.path.basename(child['src']) p.add_run().add_picture(rel_path, width=Inches(1.25)) except Exception as e: print(f"Failed to add picture {rel_path}: ", e) elif isinstance(child, NavigableString): run = p.add_run(str(child)) # 最终保存整个 word 文档 output_filename = "./output.docx" document.save(output_filename) print(f'Document saved at {output_filename}') ``` 上述代码片段展示了如何使用 Python 编程语言结合第三方库完成网络爬虫的任务——即自动化的访问指定站点收集公开可用的信息资料，并按照一定格式整理成易于阅读的形式输出给用户查看或进一步分析。

python 爬取图片 并保存至docx

python 爬取图片并保存至docx