t_hj-优快云博客

在根目录下找到www文件夹，点击进入wwwroot文件夹，随后能看到域名文件夹，里面有一下初始内容，可以全部删掉，留下 .user.ini 文件。点击上传，将模板压缩包上传到服务器，将压缩包解压出来的文件复制粘贴到域名文件夹下。这里的网站可以直接登录后台是因为上传的模板里包含了一套网站内核系统叫作。修改完成后点击网站主页就可以跳转到网页了，也可以看到网站标题被修改了。现在可以通过网站后台左侧的菜单栏来修改网站内容。回到后台，点击内容栏目，这里是网站的默认栏目。点击网站主页，回到网站，打开新建的栏目。

2025-09-06 15:15:19 349

原创 CentOS 创建站点

添加了站点之后，想要访问这个网站是需要域名来指路的，不管是云服务器还是本地电脑都会有IP地址，而计算机互相通信依靠的就是IP地址，在这里域名也就是常指我们所说的网址。域名按照自己想法来，数据库可能后面会用到，所以选上，数据库的账号和密码会自动生成，不用管，点击确定。可以在云服务器的实例列表中把公网IP复制一下，输入到这里，点击添加。解决方法如下，到云服务器控制台，选择安全组(腾讯云的为防火墙)点击添加规则，将网站默认端口80添加到安全组规则中。打开宝塔面板，点击网站，点击添加站点。

2025-09-02 23:55:02 413

原创 CentOS7.6

跳转到宝塔面板之后，可以绑定账号，没有可以注册一个，在绑定完成后会跳转到如下图所示界面。可以直接访问外网ipv4面板地址在浏览器中打开，但是会显示超时状态。接下来，服务器会询问是否下载（y/n）输入y后程序会自动安装完成。密码就是服务器的密码，端口号默认为 22 用户名默认root。安装完成后会显示下面的默认面板还有默认的账号和密码。在将新规则添加后，回到服务器，输入bt 打开面板。宝塔面板下载，免费全能的服务器运维软件。接下来需要安装一个叫作宝塔面板的软件。输入14可以查看面板的默认信息。

2025-09-02 23:01:32 357

原创 MongoDB

在上篇中，可以看到并没有执行创建数据库或者创建表之类的操作，只是插入了一个JSON对象，剩下的工作都是MongoDB自动完成的，这就是MongoDB的一个特点，这里的JSON对象就是MongoDB中的文档。MongoDB中的数据都是以文档的形式来存储的，文档在MongoDB中是一个非常重要的概念，它类似于MYSQL或者其他关系型数据库中的一行。在这里 [ ] 括号中传入的是数组，数组里面包含多个对象，每个对象就是一条数据。也可以使用一条语句来插入多条数据。现在再来插入一条数据。现在再来查看一下数据。

2025-09-02 22:25:06 213

原创 MongoDB Shell

这里insertOne是一个函数后面加上一个小括号表示调用这个函数，在小括号里面传入一个花括号包裹起来的对象，就是需要插入的数据，这里插入的是。可以看到这里有三个数据库但是里面并没有test，这是mongodb的一个特点，只有在数据库里插入数据时，这个数据库才会被创建。test代表当前正在使用的数据库的名称，在这里是MongoDB默认的数据库，他是一个空的数据库，并没有被创建。这个字段是MongoDB自动生成的，它是全局唯一的ID 可以用来标识一条数据。这一条数据，也就是刚才插入的数据。

2025-08-27 13:45:44 457

原创 MongoDB

这一页面询问是否安装MongoDB的可视化界面，可以直接通过可视化界面操控MongoDB数据库，如要选择是则点击next。跟随安装向导的步骤，设置安装路径，然后保存默认设置，点击下一步直到安装完成。1.运行安装程序：下载完后，双击.msi安装包启动安装程序。安装完成后因为勾选过可视化界面，所以会有这样一个界面弹出来。点击next，这一界面，默认即可，点击next。会有默认的链接，点右下角红圈，就直接连接到本地。出现这段内容也表示已经安装成功了。这一串网址在浏览器中直接访问。当然，我们也可以通过。

2025-08-08 19:57:41 489

原创新浪新闻获取

【代码】新浪新闻获取。

2025-08-05 17:25:51 267

原创 scrapy框架新浪新闻

Scrapy-优快云博客

2025-07-29 22:45:00 268

原创 Scrapy

middlewares 文件。items.py 文件。pipelines文件。settings文件。

2025-07-25 17:15:54 367

原创 MySQL workbench的使用

3.在 books 表中，book_id 应为主键目非空，并使用 AUTO_INCREMENT 递增。4.在 members 表中，member_id 应为主键目非空，并使用 AUTO_INCREMENT 递增。主键，唯一标识表中的每一行记录，字段不能有NULL值。如果想在表中填充信息的话，点击红圈中的图标，将信息填充上去后重复Apply+Finish。自增键，自动生成唯一的递增值，每个表中最多只能有一个AUTO_INCREMENT字段。唯一键，使用后字段中的所有值是唯一的，不会出现重复值。

2025-07-24 15:12:58 351

原创 Mysql

如下图所示，MySQL已经作为Windows系统服务名称就叫MySQL80。方法2：配置环境变量将MySQL Server\bin配置到系统环境变量。点击后页面如下，输入密码，记得将服务打开，不然会闪退。点击next，进入下面页面，点击中间execute。选择next，看到如下图所示后，点击back返回。点击一下右侧组件后，自定义安装会跳出来。点击自定义安装，将组件安装到指定的盘。再将custom选上点击next。点击back返回，选择full。点击两下next，进入下图界面。

2025-07-22 16:01:40 315

原创 Item Pipeline

是一个类方法，用 @classmethod标识，是一种依赖注入的方式参数是 crawler，通过 crawler对象，可以拿到 Scrapy的所有核心组件如全局配置的每个信息，然后创建一个Pipeline 实例。是在 Spider开启的时候被自动调用的，这里可以做一些初始化操作，如开启数据库连接等其中参数 spider 就是被开启的 Spider 对象。是在 Spider 关闭的时候自动调用的，这里可以做一些收尾工作，如关闭数据库连接等其中参数 spider 就是被关闭的 Spider对象。

2025-07-22 14:55:54 259

原创 Middleware的用法

Spider Middleware 是介入 Scrapy的 Spider 处理机制的钩子框架，当 Downloader生成 Response 之后，Response 会被发送给 Spider，在发送给 Spider之前，Response 会首先经过 Spider Middleware 处理，当 Spider处理生成ltem和 Request之后，ltem和 Request 还会经过 Spider Middleware 的处理。

2025-07-20 15:43:27 1361

原创 Selector的用法

Selector是基于lxml构建的支持XPath选择器、CSS选择器，以及正则表达式，功能全面，解析速度和准确度非常高。如Scrapy的回调函数中的参数response直接调用xpath()或者css()方法来提取数据。在命令行使用这一行代码进入scrapy shell模式。由于Selector主要是与Scrapy结合使用。单独将Selector拿出来使用。这里用官方文档中的一列做演示。Selector的用法。

2025-07-17 20:56:23 362

原创 Spider的用法

parse：当Response没有指定回调函数时，该方法会默认被调用负责处理Response，处理返回结果，并从中提取出想要的数据和下一步的请求，然后返回该方法需要返回一个包含Request或Item的可迭代对象。代表的是本Spider类对应的Crawler对象，Crawler对象中包含了很多项目组件利用它可以获取项目的一些配置信息，如最常见的就是获取项目的设置信息，即Settings。这个类是最简单最基本的Spider类，每个其他的Spider必须继承自这个类。

2025-07-16 17:25:09 398

原创 scrapy项目开发流程

当指定了该回调函数的请求完成之后，获取到响应，引擎会将该响应作为参数传递给这个回调函数，回调函数进行解析或者生成下一个请求。还可以将每一个Item输出一行JSON，输出后缀为jl，为jsonline的缩写。然后在下一个请求的页面里找到信息再构造下一个请求，循环往复迭代实现整章爬取。3.tags：标签，即每条名言的标签，是字符串组成的列表。2.author：作者，即每条名言的作者，是一个字符串。1. text：文本，即每条名言的内容，是一个字符串。

2025-07-14 16:03:31 642 1

原创 scrapy项目开发流程

parse方法 —— 解析方法，通常用于起始url对于响应的解析。scrapy startproject <爬虫名字><允许爬取的域名>middlewares.py-->自定义中间件的文件。settings.py-->设置文件，UA，启动管道。spiders-->自己定义的spider的文件夹。scrapy crawl <爬虫名字>itcast.py-->定义spider的文件。items.py-->自己预计需要爬取的内容。pipelines.py-->管道，保存数据。运行爬虫需在爬虫项目路径下。

2025-07-12 17:41:59 278 1

原创 scrapy框架

它是一个被设计用于爬取网络数据、提取结构性数据的框架。3.下载器发送请求，获取response响应---->下载中间件---->引擎---->爬虫中间件---->爬虫。4.爬虫提取url地址，组装成request对象---->爬虫中间件---->引擎---->调度器，重复步骤2。1.爬虫中起始的url构成request对象-->爬虫中间件-->引擎-->调度器。2.调度器把request-->引擎-->下载中间件-->下载器。5.爬虫提取数据---->引擎---->管道处理和保存数据。

2025-07-11 17:57:23 270 1

原创京东多页采集

【代码】京东多页采集。

2025-07-11 13:57:43 253

原创京东商品评论单页采集结果

【代码】京东商品评论单页采集结果。

2025-07-10 14:08:48 183

原创京东商品评论（2）

【代码】京东商品评论（2）

2025-07-08 17:28:52 207

原创京东商品评论（1）

网址- ：https://item.jd.com/10089562735488.html。字典取值：键值对取值，根据冒号左边的内容【键】，提取冒号右边的【值】第二步：对于全部评论按钮进行点击（点击加载全部评论）让程序知道在网页中哪个位置进行点击操作。通过关键字搜索找到对应的数据位置。drissionpage模块。-数据- ：评论相关的数据。1.打开浏览器，访问网站。第三步：等待数据包的加载。第一步：监听数据包特征。例子：定义json数据。requests模块。监听数据获取响应数据。第四步：获取响应数据。

2025-07-07 19:26:40 311

原创 python规划

--------------前沿技术与综合实战-------------------------JavaScript逆向（核心）----------------------分布式与高性能爬虫-------------------------APP爬虫与协议分析----------------------爬虫工程化与部署---------------------------逆向APP（进阶）--------------------动态内容与反爬策略----------

2025-07-06 21:21:44 345

原创点选验证码（2）

使用超级鹰打码平台python 源码。

2025-07-04 16:45:16 318

原创点选验证码（1）

pointjson 加密参数 token值在获取验证码的接口中返回。e 点击字符坐标 t 密钥 -> 通过获取验证码接口中得到。加密的位置 return r.toString()captchaVerification 为加密参数。Uid为固定，ts为时间戳。控制台所示为点击的坐标。全国互联网安全管理平台。加密方法 AES加密。

2025-07-03 15:51:02 313

原创滑块验证码（3）

代码如下，python版本需为3.11以下3.7以上 ddddocr库版本需为1.4.7以上。

2025-07-01 19:54:04 249

原创滑块验证码（2）

代码中括号中的a代表x坐标，滑块位置到缺口距离 o代表y坐标，获取验证码返回cy值。r为固定值0.5 n表示滑动轨迹。滑动轨迹第一组：点击的位置和时间戳。

2025-06-30 16:02:11 236

原创滑块验证码（1）

网站链接：有赞商家管理后台登录_有赞商城登录入口——有赞。bigUrl为缺口图 smallUrl为滑块图。滑动验证码成功后返回值为true，否则为false。userBehaviorData为加密参数。获取token值与randomStr值。通过开发者工具定位加密位置。滑动滑块定位加密位置。

2025-06-29 17:17:21 229

原创数据获取

小红书单个帖子的图片保存到本地。

2025-06-27 19:11:43 221

原创 aiohttp的使用和异步爬取实战

在导入库时，必须引入aiohttp这个库，还必须引入asyncio库。要实现异步爬取，需要启动协程，而协程需要借助于asyncio里面的事件循环才能执行。获取了网页的源代码以及响应码200，完成了一次基本的HTTP请求，既成功使用aiohttp通过异步的方式完成了网页爬取。aiohttp是一个基于asyncio的异步HTTP网络模块既提供服务端，又提供客户端。

2025-06-26 20:05:12 268

原创异步爬虫原理与解析

指不同程序单元为了完成某个任务在执行过程中需靠某种通信方式以协调一致，称这些程序单元是同步执行的。不同程序单元之间无需通信协调，也能完成任务的方式，不相关的程序单元之间可以是异步的。在python中指代为协程对象类型可以将协程对象注册到时间循环中，它会被事件循环调用。这个方法在调用时不会立即被执行，而是返回一个协程对象。使用aiohttp 模块将一个进程挂起。可以使用async关键字来定义一个方法。先遍历100遍一个程序。相比于第一个耗时更少。

2025-06-25 16:07:23 1146

原创抖音 pc + 翻页

4.保存数据：把提取出来的数据保存到本地文件中。1.发送请求模拟浏览器对于url地址发送请求。自动化模块：模拟人的行为对于浏览器进行操作。2.获取数据：获取服务器返回响应数据。3.解析数据：提取我们需要的数据内容。drissionpage模块。DrissionPage官网。1.打开浏览器，访问网站。

2025-06-14 14:16:30 429

原创 POST请求、响应、requests库高级用法

这里我们首先调用cookies属性，成功得到Cookie，可以发现它属于RequestCookie]ar 类型。这里通过status_code属性得到状态码、通过headers属性得到响应头、通过cookies属性得到Cookie、通过url属性得到URL、通过history属性得到请求历史，打印结果如下。通过比较返回码和内置的表示成功的状态码，来保证请求是否得到了正常响应，如果是，就是输出请求成功的消息，否则程序终止运行，这里用requests.code.ok得到的成功状态码是200.

2025-05-11 19:15:05 267

原创 requests库

URL可以写成 https://httpbin.org/get？如果想要直接解析返回结果得到一个JSON格式的数据的话，可以直接调用json方法。如果想添加两个参数，其中name是germey，age是25。示例网站为 https://模拟请求获取网页源代码。

2025-05-09 20:11:16 458

原创 Ajax案例

一般情况下这些数据都是通过AJax来加载的，JS在后台调用这些Ajax数据接口得到数据后，再把数据进行解析并渲染呈现出来，得到最终的页面。在HTML中我们只能在源码中看到引用了一些JS和CSS文件并没有观察到任何有关电影数据的信息，说明看到的页面是通过JS渲染得到的。先构造一个URL，通过字符串的format的方法，传入limit和offset的值。目标链接：https://spa1.scrape.center。构造好URl之后，直接调用scape_api方法并返回结果。页面加1 offset加10。

2025-05-08 21:43:02 304

数据获取压缩包(zsxq)

空空如也