自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(58)
  • 收藏
  • 关注

原创 MongoDB

这一页面询问是否安装MongoDB的可视化界面,可以直接通过可视化界面操控MongoDB数据库,如要选择是则点击next。跟随安装向导的步骤,设置安装路径,然后保存默认设置,点击下一步直到安装完成。1.运行安装程序:下载完后,双击.msi安装包启动安装程序。安装完成后因为勾选过可视化界面,所以会有这样一个界面弹出来。点击next,这一界面,默认即可,点击next。会有默认的链接,点右下角红圈,就直接连接到本地。出现这段内容也表示已经安装成功了。这一串网址在浏览器中直接访问。当然,我们也可以通过。

2025-08-08 19:57:41 396

原创 新浪新闻获取

【代码】新浪新闻获取。

2025-08-05 17:25:51 201

原创 scrapy框架新浪新闻

Scrapy-优快云博客

2025-07-29 22:45:00 248

原创 Scrapy

middlewares 文件。items.py 文件。pipelines文件。settings文件。

2025-07-25 17:15:54 271

原创 MySQL workbench的使用

3.在 books 表中,book_id 应为主键目非空,并使用 AUTO_INCREMENT 递增。4.在 members 表中,member_id 应为主键目非空,并使用 AUTO_INCREMENT 递增。主键,唯一标识表中的每一行记录,字段不能有NULL值。如果想在表中填充信息的话,点击红圈中的图标,将信息填充上去后重复Apply+Finish。自增键,自动生成唯一的递增值,每个表中最多只能有一个AUTO_INCREMENT字段。唯一键,使用后字段中的所有值是唯一的,不会出现重复值。

2025-07-24 15:12:58 245

原创 Mysql

如下图所示,MySQL已经作为Windows系统服务 名称就叫MySQL80。方法2:配置环境变量 将MySQL Server\bin配置到系统环境变量。点击后页面如下,输入密码 ,记得将服务打开,不然会闪退。点击next,进入下面页面,点击中间execute。选择next,看到如下图所示后,点击back返回。点击一下右侧组件后,自定义安装会跳出来。点击自定义安装,将组件安装到指定的盘。再将custom选上点击next。点击back返回,选择full。点击两下next,进入下图界面。

2025-07-22 16:01:40 290

原创 Item Pipeline

是一个类方法,用 @classmethod标识,是一种依赖注入的方式参数是 crawler,通过 crawler对象,可以拿到 Scrapy的所有核心组件如全局配置的每个信息,然后创建一个Pipeline 实例。是在 Spider开启的时候被自动调用的,这里可以做一些初始化操作,如开启数据库连接等其中参数 spider 就是被开启的 Spider 对象。是在 Spider 关闭的时候自动调用的,这里可以做一些收尾工作,如关闭数据库连接等其中参数 spider 就是被关闭的 Spider对象。

2025-07-22 14:55:54 234

原创 Middleware的用法

Spider Middleware 是介入 Scrapy的 Spider 处理机制的钩子框架,当 Downloader生成 Response 之后,Response 会被发送给 Spider,在发送给 Spider之前,Response 会首先经过 Spider Middleware 处理,当 Spider处理生成ltem和 Request之后,ltem和 Request 还会经过 Spider Middleware 的处理。

2025-07-20 15:43:27 854

原创 Selector的用法

Selector是基于lxml构建的支持XPath选择器、CSS选择器,以及正则表达式,功能全面,解析速度和准确度非常高。如Scrapy的回调函数中的参数response直接调用xpath()或者css()方法来提取数据。在命令行使用这一行代码进入scrapy shell模式。由于Selector主要是与Scrapy结合使用。单独将Selector拿出来使用。这里用官方文档中的一列做演示。Selector的用法。

2025-07-17 20:56:23 342

原创 Spider的用法

parse:当Response没有指定回调函数时,该方法会默认被调用负责处理Response,处理返回结果,并从中提取出想要的数据和下一步的请求,然后返回该方法需要返回一个包含Request或Item的可迭代对象。代表的是本Spider类对应的Crawler对象,Crawler对象中包含了很多项目组件利用它可以获取项目的一些配置信息,如最常见的就是获取项目的设置信息,即Settings。这个类是最简单最基本的Spider类,每个其他的Spider必须继承自这个类。

2025-07-16 17:25:09 267

原创 scrapy项目开发流程

当指定了该回调函数的请求完成之后,获取到响应,引擎会将该响应作 为参数传递给这个回调函数,回调函数进行解析或者生成下一个请求。还可以将每一个Item输出一行JSON,输出后缀为jl,为jsonline的缩写。然后在下一个请求的页面里找到信息再构造下一个请求,循环往复迭代实现整章爬取。3.tags:标签,即每条名言的标签,是字符串组成的列表。2.author:作者,即每条名言的作者,是一个字符串。1. text:文本,即每条名言的内容,是一个字符串。

2025-07-14 16:03:31 541 1

原创 scrapy项目开发流程

parse方法 —— 解析方法,通常用于起始url对于响应的解析。scrapy startproject <爬虫名字><允许爬取的域名>middlewares.py-->自定义中间件的文件。settings.py-->设置文件,UA,启动管道。spiders-->自己定义的spider的文件夹。scrapy crawl <爬虫名字>itcast.py-->定义spider的文件。items.py-->自己预计需要爬取的内容。pipelines.py-->管道,保存数据。运行爬虫需在爬虫项目路径下。

2025-07-12 17:41:59 208 1

原创 scrapy框架

它是一个被设计用于爬取网络数据、提取结构性数据的框架。3.下载器发送请求,获取response响应---->下载中间件---->引擎---->爬虫中间件---->爬虫。4.爬虫提取url地址,组装成request对象---->爬虫中间件---->引擎---->调度器,重复步骤2。1.爬虫中起始的url构成request对象-->爬虫中间件-->引擎-->调度器。2.调度器把request-->引擎-->下载中间件-->下载器。5.爬虫提取数据---->引擎---->管道处理和保存数据。

2025-07-11 17:57:23 245 1

原创 京东多页采集

【代码】京东多页采集。

2025-07-11 13:57:43 224

原创 京东商品评论单页采集结果

【代码】京东商品评论单页采集结果。

2025-07-10 14:08:48 164

原创 京东商品评论(2)

【代码】京东商品评论(2)

2025-07-08 17:28:52 183

原创 京东商品评论(1)

网址- :https://item.jd.com/10089562735488.html。字典取值:键值对取值,根据冒号左边的内容【键】,提取冒号右边的【值】第二步:对于全部评论按钮进行点击(点击加载全部评论)让程序知道在网页中哪个位置进行点击操作。通过关键字搜索找到对应的数据位置。drissionpage模块。-数据- :评论相关的数据。1.打开浏览器,访问网站。第三步:等待数据包的加载。第一步:监听数据包特征。例子:定义json数据。requests模块。监听数据获取响应数据。第四步:获取响应数据。

2025-07-07 19:26:40 286

原创 python规划

--------------前沿技术与综合实战-------------------------JavaScript逆向(核心)----------------------分布式与高性能爬虫-------------------------APP爬虫与协议分析----------------------爬虫工程化与部署---------------------------逆向APP(进阶)--------------------动态内容与反爬策略----------

2025-07-06 21:21:44 317

原创 点选验证码(2)

使用超级鹰打码平台python 源码。

2025-07-04 16:45:16 224

原创 点选验证码(1)

pointjson 加密参数 token值在获取验证码的接口中返回。e 点击字符坐标 t 密钥 -> 通过获取验证码接口中得到。加密的位置 return r.toString()captchaVerification 为加密参数。Uid为固定,ts为时间戳。控制台所示为点击的坐标。全国互联网安全管理平台。加密方法 AES加密。

2025-07-03 15:51:02 208

原创 滑块验证码(3)

代码如下,python版本需为3.11以下3.7以上 ddddocr库版本需为1.4.7以上。

2025-07-01 19:54:04 232

原创 滑块验证码(2)

代码中括号中的a代表x坐标,滑块位置到缺口距离 o代表y坐标,获取验证码返回cy值。r为固定值0.5 n表示滑动轨迹。滑动轨迹第一组:点击的位置和时间戳。

2025-06-30 16:02:11 186

原创 滑块验证码(1)

网站链接:有赞商家管理后台登录_有赞商城登录入口——有赞。bigUrl为缺口图 smallUrl为滑块图。滑动验证码成功后返回值为true,否则为false。userBehaviorData为加密参数。获取token值与randomStr值。通过开发者工具定位加密位置。滑动滑块定位加密位置。

2025-06-29 17:17:21 185

原创 数据获取

小红书单个帖子的图片保存到本地。

2025-06-27 19:11:43 168

原创 aiohttp的使用和异步爬取实战

在导入库时,必须引入aiohttp这个库,还必须引入asyncio库。要实现异步爬取,需要启动协程,而协程需要借助于asyncio里面的事件循环才能执行。获取了网页的源代码以及响应码200,完成了一次基本的HTTP请求,既成功使用aiohttp通过异步的方式完成了网页爬取。aiohttp是一个基于asyncio的异步HTTP网络模块 既提供服务端,又提供客户端。

2025-06-26 20:05:12 234

原创 异步爬虫 原理与解析

指不同程序单元为了完成某个任务在执行过程中需靠某种通信方式以协调一致,称这些程序单元是同步执行的。不同程序单元之间无需通信协调,也能完成任务的方式,不相关的程序单元之间可以是异步的。在python中指代为协程对象类型可以将协程对象注册到时间循环中,它会被事件循环调用。这个方法在调用时不会立即被执行,而是返回一个协程对象。使用aiohttp 模块 将一个进程挂起。可以使用async关键字来定义一个方法。先遍历100遍一个程序。相比于第一个耗时更少。

2025-06-25 16:07:23 880

原创 抖音 pc + 翻页

4.保存数据:把提取出来的数据保存到本地文件中。1.发送请求模拟浏览器对于url地址发送请求。自动化模块:模拟人的行为对于浏览器进行操作。2.获取数据:获取服务器返回响应数据。3.解析数据:提取我们需要的数据内容。drissionpage模块。DrissionPage官网。1.打开浏览器,访问网站。

2025-06-14 14:16:30 273

原创 POST请求 、响应、requests库高级用法

这里我们首先调用cookies属性,成功得到Cookie,可以发现它属于RequestCookie]ar 类型。这里通过status_code属性得到状态码、通过headers属性得到响应头、通过cookies属性得到Cookie、通过url属性得到URL、通过history属性得到请求历史,打印结果如下。通过比较返回码和内置的表示成功的状态码,来保证请求是否得到了正常响应,如果是,就是输出请求成功的消息,否则程序终止运行,这里用requests.code.ok得到的成功状态码是200.

2025-05-11 19:15:05 237

原创 requests库

URL可以写成 https://httpbin.org/get?如果想要直接解析返回结果得到一个JSON格式的数据的话,可以直接调用json方法。如果想添加两个参数,其中name是germey,age是25。示例网站为 https://模拟请求获取网页源代码。

2025-05-09 20:11:16 440

原创 Ajax案例

一般情况下这些数据都是通过AJax来加载的,JS在后台调用这些Ajax数据接口得到数据后,再把数据进行解析并渲染呈现出来,得到最终的页面。在HTML中我们只能在源码中看到引用了一些JS和CSS文件并没有观察到任何有关电影数据的信息,说明看到的页面是通过JS渲染得到的。先构造一个URL,通过字符串的format的方法,传入limit和offset的值。目标链接:https://spa1.scrape.center。构造好URl之后,直接调用scape_api方法并返回结果。页面加1 offset加10。

2025-05-08 21:43:02 286

原创 Ajax的原理和解析

通过document.getElementByld().innerHTML 这样的操作对某个元素内的源代码进行更改,这样网页显示的内容就改变了 这种对Document网页文档进行如更改、删除等操作也被称作DOM操作。就是JS向服务器发送了一个Ajax请求然后获取新的微博数据,将其解析,并渲染在网页中的过程。利用JS在保证页面不被刷新 页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。将ID为myDiv的节点内部的HTML代码更改为服务器返回的内容。网页的部分内容看上去就更新了。

2025-05-08 13:34:34 328

原创 4. 22

【代码】4. 22。

2025-04-22 19:50:11 177

原创 豆瓣top250

【代码】豆瓣top250。

2025-04-15 21:22:07 300

原创 douban

【代码】douban。

2025-04-08 12:34:17 117

原创 4.6测试

【代码】4.6测试。

2025-04-06 17:19:32 228

原创 4.1(2)

流程:url(网址资源定位符)--对url发送网络请求,获取网络请求的响应-- 解析响应,提取数据 -- 保存数据。#www.baidu.com ----url 统一资源定位符。# 获取的响应中,有可能会提取到还需要继续发送请求的url,# url -- www.baidu.com 域名。# 2.请求方法 --request method。# 3.请求头 --request header。# 继续发送请求,获取响应,提取数据,保存数据。# 1.请求网址 --request url。

2025-04-01 21:19:45 220

原创 4 . 1

【代码】 4 . 1。

2025-04-01 20:51:47 141

原创 3.31(3)

logging默认的level就是warning,也就是说logging只会显示级别大于等于warning的日志信息。# 1.filename:指定日志文件的文件名,所有会显示的日志都会存放到这个文件中去。#作用:用于实现各种分布的伪随机数生成器,可以根据不同的实数分布来随机生成值。# level:指定日志显示级别,默认是警告信息warning。#2.filemode:文件的打开方式,默认是a,追加模式。# 日志的作用1.程序的调试。# 作用:用于记录日志信息。#级别排序(从高到低)

2025-03-31 20:01:52 139

原创 3.31(2)

os.path.exists() #判断路径(文件或目录)是否存在,存在的话就返回True,不存在就返回False。# time.strftime(格式化字符串,struct_time) #将struct_time转换成时间字符串。#os.path.isfile() #判断是否存在文件,存在的话就返回True,不存在就返回False。# os.path.isdir() #判断目录是否存在,存在的话就返回True,不存在就返回False。# tiem.time() #获取到当前的时间戳。

2025-03-31 19:26:45 218

原创 3. 31

可迭代对象:指实现了python迭代协议,可以通过for..in..循环遍历的对象,比如list,dict,str...,迭代器,生成器。#2.yield语句一次返回一个结果,在每个结果中间,挂起函数,执行next(),再重新从挂起点继续往下执行。#迭代器:可以记住自己遍历位置的对象,直观体现就是可以使用next()函数返回值,迭代器只能往前,# python中,使用了yield关键字的函数就称之为生成器函数。# 不能往后,当遍历完之后,next()会抛出异常。# 是函数中断,并保存中断的状态。

2025-03-31 15:41:18 231

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除