带你领略python魔法~免费复制文档数据

本文分享了如何使用Python获取无法直接复制的文档数据。通过分析数据来源,使用requests和python-docx模块,配合开发者工具进行抓包,实现图片下载和文字识别,将内容保存到Word文档。

前言

嗨喽~大家好呀,这里是魔王呐 ❤ ~

我们百度搜索一些东西得时候,经常找到文档里面

然后就会发现需要充值才能复制!怎么可以不花钱也保存呢?

今天就分享给大家一个python获取文档数据得方法

环境使用:

  • python 3.8

  • pycharm

模块使用:

  • requests >>> 数据请求模块 pip install requests

  • docx >>> 文档保存 pip install python-docx

  • re 内置模块 不需要安装

ctrl + R : 首先你得看得数据, 才能想办法获取

安装python第三方模块:

  1. win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车

  2. 在pycharm中点击Terminal(终端) 输入安装命令

基本思路流程:

一. 分析数据来源

找 文档数据内容, 是在那个url里面生成的

  • 通过开发者工具进行抓包分析

    1. 打开开发者工具: F12 / 鼠标右键点击检查选择network

    2. 刷新网页: 让本网页数据内容重新加载一遍

    如果你是非VIP账号, 看数据, 图片形式 —> 把数据<图片> 获取下来 —> 做文字识别

    1. 分析文库数据内容, 图片所在地址
  1. 获取所有图片内容: 文库数据 --> 图片形式 —> 所有图片内容保存下载

  2. 文字识别, 把图片文字识别出来, 保存word文档里面

二. 代码实现步骤
  1. 发送请求, 模拟浏览器对于url地址发送请求

    图片数据包:

  2. 获取数据, 获取服务器返回响应数据

    开发者工具: response

  3. 解析数据, 提取图片链接地址

  4. 保存数据, 把图片内容保存到本地文件夹

  5. 做文字识别, 识别文字内容

  6. 把文字数据信息, 保存word文档里面

代码展示

🎯 文章素材、解答、源码、教程领取处:点击

# 导入数据请求模块
import requests
# 导入格式化输出模块
from pprint import pprint
# 导入base64
import base64
# 导入os模块
import os
# 导入文档模块
from docx import Document
# 导入正则
import re
# 导入json
import json

“”"
文字识别:

  1. 注册一个百度云API账号

  2. 创建应用 并且去免费领取资源

  3. 在技术文档里面 Access Token获取

  4. 调用API接口做文字识别

“”"

def get_content(file):
    # client_id 为官网获取的AK, client_secret 为官网获取的SK
    host
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值