
Python网络爬虫实战
文章平均质量分 88
武汉唯众智创
让教学实训更简单!
展开
-
Python网络爬虫实战——实验8:Python爬虫项目部署与kafka消息队实战
根据环境变量 ‘django_env’ 的值选择 Kafka 服务器地址,如果 ‘django_env’ 的值为’production’,则使用 192.168.0.151:9092否则,使用 192.168.0.228:9092。连接成功后,点击Mappings配置路径映射,local path 表示window 上爬虫项目的路径,Deployment path 是Linux服务器上项目存放的路径。然后连接上我们的linux服务器,运行sql文件(如下图所示)即可完成数据表和数据内容的迁移。原创 2024-01-27 10:23:54 · 1641 阅读 · 1 评论 -
Python网络爬虫实战——实验7:Python使用apscheduler定时采集任务实战
(1) 简介APScheduler(Advanced Python Scheduler)是一个用于 Python 的灵活的定时任务调度库。它允许您在应用程序中安排执行函数或方法,以便在指定的时间间隔、日期、天或其他规则触发它们。(2) 特点。原创 2024-01-27 10:20:17 · 1019 阅读 · 0 评论 -
Python网络爬虫实战——实验6:Python实现js逆向与加解密
在对广东政府采购网进行页面分析时发现在发送的ajax请求头中存在着一个Nsssjss的加密字段,在发送一个请求时必须携带正确的密文才能返回数据,但我们并不知道这段密文的具体含义,此时就需要分析一下js文件。由于私钥不会被公开分享,只有拥有相应私钥的实体才能够解密加密的消息,从而保障了通信的安全性。加密过程: 当实体A想要向实体B发送加密消息时,实体A使用实体B的公钥对消息进行加密。构造nsssjss加密字段,调用encrypt_by_rsa函数,将公钥和value传递过去,返回加密后的字段。原创 2024-01-27 10:14:36 · 2115 阅读 · 0 评论 -
Python网络爬虫实战——实验5:Python爬虫之selenium动态数据采集实战
动态加载网页是指在页面初次加载完成后,通过JavaScript等前端技术,根据用户的交互或其他触发条件,向服务器请求额外的数据并将其加载到已有页面中,而无需刷新整个页面。进入主页面后,摁F12打开开发者工具,点击Doc输入关键字学,点击检索按钮,可以出现如上图4步骤所示的接口,preview中可以查看到该接口的返回值。上图站长之家就是使用js动态渲染网页,在传统的静态网页爬取中,爬虫工具通常只能获取页面初次加载时的静态内容,而无法直接获取动态加载的数据。一旦数据加载完成,使用Selenium提取目标数据。原创 2024-01-27 10:09:07 · 2288 阅读 · 0 评论 -
Python网络爬虫实战——实验4:Python爬虫代理的使用
代理(Proxy)是一种网络服务,它充当客户端和目标服务器之间的中介,接受来自客户端的请求并将其转发给目标服务器。以四川政府采购中标数据为例(http://www.ccgp-sichuan.gov.cn/),在不使用代理对该网址进行高频率数据采集时,本机ip会被该网址进行屏蔽,返回空数据,此时就需要代理ip 的介入。以下是一些常见的代理服务商,它们提供了不同类型的代理,适用于各种需求。分析该网址很容易发现该网页使用ajax发送请求返回数据,因此我们只需要对该接口发送请求就可以获得子页面的数据。原创 2024-01-27 10:03:24 · 1456 阅读 · 0 评论 -
Python网络爬虫实战——实验3:Python爬虫之文字验证码实战
以江西政府采购网站(http://www.ccgp-jiangxi.gov.cn/web/)为例,当我们点击搜索按钮的时候,会弹出如下的验证码进行验证,用户需要输入对应正确的验证码才能获取数据。如下代码首先对图片发起请求,并将其下载到本地,然后使用baidu_client对象对图片文字进行识别,如果识别成功,则返回对应的验证码,否则捕获异常进行重新识别。选择network的all,重新点击搜索框发起请求,可以看到如下请求接口正好是返回了图片的链接。保存的部分json文件如下图所示。步骤1 调研目标网站。原创 2024-01-27 09:57:43 · 1463 阅读 · 0 评论 -
Python网络爬虫实战——实验2:Python爬虫网络请求与内容解析
使用requests库对aip数据接口发起post请求,携带请求头headers与请求参数data,从响应的 JSON 数据中提取 ‘result’ 键对应的值,并使用 eval 函数将其转换为dict对象,如果返回的数据为空则跳出循环。\S表示匹配任意非空字符,()表示一个捕获组,pattern3这个re表达式可以提取到信息来源后面的文本数据。对子链接发起get请求,使用text属性获取返回的文本数据,使用lxml中的clean方法对获取到的数据进行清洗,3、掌握基础的re、xpath语法的使用;原创 2024-01-27 09:48:41 · 989 阅读 · 0 评论 -
Python网络爬虫实战——实验1:Python爬虫环境配置
随着信息时代的到来,互联网上涌现出海量的数据,而网络爬虫作为一种强大的数据采集工具,为我们提供了获取和分析这些数据的途径。本文将为您介绍一系列Python网络爬虫实战实验,从环境配置到项目部署,帮助您全面了解和掌握这一领域的技能。通过本文的实验,您将不仅学会构建一个完整的网络爬虫系统,还能够处理爬虫过程中可能遇到的各种挑战。网络爬虫技能的掌握将为您在数据分析、信息挖掘等领域提供有力的支持,让您在信息的海洋中游刃有余。原创 2024-01-27 09:38:18 · 1685 阅读 · 0 评论