带你领略python魔法~免费复制文档数据

最新推荐文章于 2025-10-19 22:19:21 发布

原创

最新推荐文章于 2025-10-19 22:19:21 发布 · 1.6k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言 #pycharm

本文分享了如何使用Python获取无法直接复制的文档数据。通过分析数据来源，使用requests和python-docx模块，配合开发者工具进行抓包，实现图片下载和文字识别，将内容保存到Word文档。

前言

嗨喽~大家好呀，这里是魔王呐 ❤ ~

我们百度搜索一些东西得时候，经常找到文档里面

然后就会发现需要充值才能复制！怎么可以不花钱也保存呢？

今天就分享给大家一个python获取文档数据得方法

环境使用:

python 3.8
pycharm

模块使用:

requests >>> 数据请求模块 pip install requests
docx >>> 文档保存 pip install python-docx
re 内置模块不需要安装

ctrl + R : 首先你得看得数据, 才能想办法获取

安装python第三方模块:

win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
在pycharm中点击Terminal(终端) 输入安装命令

基本思路流程:

一. 分析数据来源

找文档数据内容, 是在那个url里面生成的

通过开发者工具进行抓包分析
1. 打开开发者工具: F12 / 鼠标右键点击检查选择network
2. 刷新网页: 让本网页数据内容重新加载一遍
如果你是非VIP账号, 看数据, 图片形式 —> 把数据<图片> 获取下来 —> 做文字识别
1. 分析文库数据内容, 图片所在地址

获取所有图片内容: 文库数据 --> 图片形式 —> 所有图片内容保存下载
文字识别, 把图片文字识别出来, 保存word文档里面

二. 代码实现步骤

发送请求, 模拟浏览器对于url地址发送请求

图片数据包:
获取数据, 获取服务器返回响应数据

开发者工具: response
解析数据, 提取图片链接地址
保存数据, 把图片内容保存到本地文件夹
做文字识别, 识别文字内容
把文字数据信息, 保存word文档里面

代码展示

🎯 文章素材、解答、源码、教程领取处：点击

# 导入数据请求模块
import requests
# 导入格式化输出模块
from pprint import pprint
# 导入base64
import base64
# 导入os模块
import os
# 导入文档模块
from docx import Document
# 导入正则
import re
# 导入json
import json

“”"
文字识别:

注册一个百度云API账号
创建应用并且去免费领取资源
在技术文档里面 Access Token获取
调用API接口做文字识别

“”"

def get_content(file):
    # client_id 为官网获取的AK， client_secret 为官网获取的SK
    host

最低0.47元/天解锁文章