前言
嗨喽~大家好呀,这里是魔王呐 ❤ ~

我们百度搜索一些东西得时候,经常找到文档里面
然后就会发现需要充值才能复制!怎么可以不花钱也保存呢?
今天就分享给大家一个python获取文档数据得方法
环境使用:
-
python 3.8
-
pycharm
模块使用:
-
requests >>> 数据请求模块 pip install requests
-
docx >>> 文档保存 pip install python-docx
-
re 内置模块 不需要安装
ctrl + R : 首先你得看得数据, 才能想办法获取
安装python第三方模块:
-
win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
-
在pycharm中点击Terminal(终端) 输入安装命令
基本思路流程:
一. 分析数据来源
找 文档数据内容, 是在那个url里面生成的
-
通过开发者工具进行抓包分析
-
打开开发者工具: F12 / 鼠标右键点击检查选择network
-
刷新网页: 让本网页数据内容重新加载一遍
如果你是非VIP账号, 看数据, 图片形式 —> 把数据<图片> 获取下来 —> 做文字识别
- 分析文库数据内容, 图片所在地址
-
-
获取所有图片内容: 文库数据 --> 图片形式 —> 所有图片内容保存下载
-
文字识别, 把图片文字识别出来, 保存word文档里面
二. 代码实现步骤
-
发送请求, 模拟浏览器对于url地址发送请求
图片数据包:
-
获取数据, 获取服务器返回响应数据
开发者工具: response
-
解析数据, 提取图片链接地址
-
保存数据, 把图片内容保存到本地文件夹
-
做文字识别, 识别文字内容
-
把文字数据信息, 保存word文档里面
代码展示
🎯 文章素材、解答、源码、教程领取处:点击
# 导入数据请求模块
import requests
# 导入格式化输出模块
from pprint import pprint
# 导入base64
import base64
# 导入os模块
import os
# 导入文档模块
from docx import Document
# 导入正则
import re
# 导入json
import json
“”"
文字识别:
-
注册一个百度云API账号
-
创建应用 并且去免费领取资源
-
在技术文档里面 Access Token获取
-
调用API接口做文字识别
“”"
def get_content(file):
# client_id 为官网获取的AK, client_secret 为官网获取的SK
host

本文分享了如何使用Python获取无法直接复制的文档数据。通过分析数据来源,使用requests和python-docx模块,配合开发者工具进行抓包,实现图片下载和文字识别,将内容保存到Word文档。
最低0.47元/天 解锁文章
645

被折叠的 条评论
为什么被折叠?



