qq_37587269-优快云博客

原创 windows电脑上安装llama-factory实现大模型微调

这是官方给的llama-factory安装教程，，上面介绍了linux系统上以及windows系统上如何正确安装。大家依照安装步骤基本能够完成安装，但是可能由于缺少经验或者相关的知识导致启动webUi界面运行相应内容时会报各种错误。特别需要注意的是：一定要有英伟达的显卡。如果没有显卡的GPU加速，模型的训练时间是非常长的。

2025-03-02 15:07:27 2528

原创 22爬虫：使用Drission Page的两个案例

使用requests获取BOSS网站上的内容是非常困难的，但是通过网页自动化工具DrissionPage或者是Playwright或者是Seleenium是非常容易的，接下来我们就给出使用DrissionPage爬取BOSS网站python招聘的信息，仅供学习参考。在上述的程序中，我们使用DrissionPage种自带的监听技术获取Ajax相应数据。分析BOSS网站返回的数据，发现他是Ajax请求，当让页不可以使用监听技术，直接等待页面加载完毕之后定位元素所在的位置即可。

2025-02-21 14:10:21 957

原创 21爬虫：使用playwright接管本地已经登录淘宝的浏览器并查找python相关店铺信息

（1）首先找到电脑上安装的Chrome浏览器可执行程序的完整路径：Mac电脑上可执行程序的完整路径为：windows系统的电脑上查找可执行文件的完整路径：右键 Chrome 浏览器桌面图标，找到 chrome.exe 的安装路径（2）将Chrome浏览器可执行程序的完整路径配置到环境变量中，也可以不配置。

2025-02-14 10:16:58 588

原创 20爬虫：使用playwright与图鉴破解豆瓣滑动验证码

整个浏览器的坐标系示意图如下图所示，原点在网页的左上角，水平向右是x轴正方向，水平向下是y轴正方向，这个基础知识对于接下来使用playwright模拟鼠标点击滑动验证是非常重要的。

2025-02-07 15:59:09 464

原创 19爬虫：使用playwright登录超级鹰

本次案例一共解决了如下两个问题：（1）如何使用playwright截图，特别是验证码图片（2）在playwright中如何判断一个元素可见。

2025-02-05 14:37:03 1154

原创 18爬虫:关于playwright相关内容的学习

打开pycharm，进入终端，输入如下的2个命令行代码即可自动完成playwright的安装pip install playwright ——》在python中安装playwright第三方模块playwright install ——》安装playwright所需的工具插件和所支持的浏览器看到这里，是否想要动手进行安装。先不要着急，playwright对安装环境也是有一定要求的。

2025-02-05 10:16:04 1017

原创 17爬虫:关于DrissionPage相关内容的学习01

前面我们已经大致了解了selenium的用法，DerssionPage同selenium一样，也是一个基于Python的网页自动化工具。DrissionPage既可以实现网页的自动化操作，也能够实现收发数据包，也可以把两者的功能合二为一。DressionPage的有点在于既可以兼顾selenium自动操作网页的便捷性，还不需要像selenium那样配置chromedriver，也不需要过一段时间更新chrome浏览器和chromedriver。

2024-12-30 14:49:33 3313

原创 python基础02：字典

【代码】python基础02：字典。

2024-12-27 17:29:49 355

原创 python基础01:列表与元组

列表是可变的序列，也是一种存储各种数据的集合，用中括号[]表示列表的结束与开始，各个元素之间通过逗号分隔。

2024-12-27 15:59:22 141

原创 16爬虫：使用requests和scrapy分别从链家获取二手房信息

在scrapy中只修改了上述的内容，其他的组件代码保持不动。

2024-12-24 16:21:34 408

原创 js基础02

js中的内置对象，在接下来的内容中，我们将逐一介绍字符串、数学对象、日期对象、数组对象。

2024-12-24 15:29:26 691

原创 js基础01

js的全称是javascript。js是基于事件驱动的，可以捕捉到用户在浏览器中的操作行为，能够将原来静态的HTML页面变成可以和用户交互的动态页面。具体来说，js的功能如下：（1）动态改变网页内容。HTML是静态语言，js可以弥补这方面的不足，将内容动态的显示在网页中。（2）动态改变网页的外观。js通过修改css样式，可以动态的改变网页的外观。（3）验证表单数据。用户在填写表单数据时，可以对用户填写的数据进行合法化交验，提高网页的效率。（4）响应事件。在事件产生后才会执行某一段js代码。

2024-12-23 17:12:23 1051

原创 15爬虫：下载器中间件

（2）SeleniumRequest请求对象在传递给downloader的过程中，遇到了下载器中间件（中间件我们可以简单的理解为一堵墙，只有符合条件的才能放行）。但是页面2的url我们封装的是seleniumRequest，因此在下载器中间的process_request方法中实现selenium数据获取并返回Response对象，按照scrapy规则，process_request方法返回Response对象直接给engine，相当于把流程在下载器中间件处截断。

2024-12-20 12:48:45 436

原创 14爬虫：scrapy实现翻页爬取

:观察页面源代码，发现url直接在源代码中体现，对应的解决方案是：（1）访问第一页，（2）提取下一页url，（3）提取下一页url，一直重复该流程到最后一页。:观察页面源代码，发现url不能在源代码中体现，对应的解决方案是：直接观察页面总数，观察每一页url的变化规律，通过程序模拟出每一页的url。例如点击加载更多，或者鼠标向下滑动才能加载更多信息的分页逻辑属于不正常的分页。:加载更多，点击之后才可以加载下一页的内容。对应的解决方案是：通过抓包找到url的变化规律，。

2024-12-19 14:46:46 1188

原创 13爬虫：使用scrapy实现图片之家中男明星专辑中图片的下载

在这个案例中，我们使用scrapy抓取图片之间某个模块的图片，整个框架的工作流程如上图所示。橘色线表示scrapy对初始url所在的服务器发起请求，绿色线表示scrapy对子页面url所在的服务器发起请求，黑色线表示scarpy下载图片的流程。对应的步骤如下：（1-1）engine从spider中提取初始url的Request对象，随后将该对象放入schedule中；（1-2）某时刻，engine将该Request对象从schedule中提取出来，发送至downloader中；

2024-12-18 17:29:24 328

原创 12爬虫：scrapy爬虫框架

简单的说，scrapy是一个爬虫框架，属于项目的半成品，集成了各种功能且具有较强的通用性，其本身就具有协程功能。scrapy主要包含5大模块，分别为引擎（engine）、调度器（scheduler）、下载器（downloader）、爬虫（spider）、管道（pipeline）五大基本模块。各个模块的基本功能如下：（1）引擎（engine）：scrapy的核心模块，衔接其他所有模块，所有的数据流都要经过引擎。

2024-12-18 12:40:06 1028

原创 11爬虫：使用requests和selenium分别抓取4399网页游戏名称

我们分别通过requests和selenium抓取4399网页中的游戏名称，作为对前面知识的复习。

2024-12-17 16:42:02 186

原创 10爬虫：获取xfz的热点信息

当我们在网页上点击查看更多，抓取新的请求，发现请求参数中只有p的取值从1变为2，在继续点击查看更多，p的取值变为3。n表示每一页有多少条新闻。请求返回的数据格式是json格式。如何获取每条新闻的具体内容呢。通过进入每一条新闻所在的页面，我们可以发现所有网页的url地址存在如下的规律：结合上图，我们可以得到对应的uid信息。

2024-12-17 09:30:04 252

原创 09爬虫：获取TX的招聘岗位信息

首先，我们通过使用network找出对应的url（这里涉及前端Ajax技术，感兴趣的小伙伴可以先自行学习）。细心的小伙伴可以发现，在使用network时将选项卡选定到Fetch/XHR上。如果我们继续将选项卡选定在all上，会抓取一堆请求，我们需要在这一堆请求中找到真正获取数据的请求比较困难。当我们将选项卡定位到Fetch/XHR后，可以轻易的找到真正获取的数据的请求。找到发送数据的请求后，接下来就是如何爬取相应的招聘信息，以及如何翻页爬取。

2024-12-16 17:12:53 272

原创 CSS基础07

我们利用浮动和定位，顺道复习前期学习的选择器相关知识，实现豆瓣TOP250电影网页的初步布局。

2024-12-12 15:49:18 154

原创 CSS基础07

使用浮动和定位属性完成豆瓣电影网站样式的初步排版。这时我们自己做出的效果图与豆瓣电影网站的对比。

2024-12-12 15:46:03 168

原创 CSS基础06

盒子模型就是把页面中的HTML元素看作是一个矩形的盒子，也就是盛装容器的盒子。通俗的讲就是在，包括边框、外边距（盒子与盒子之间的距离或者盒子与网页边的距离）、内边距（盒子里面的内容与盒子边框之间的距离）、内容。在前期CSS基础04这篇文章中，我们初步设计了一个网页布局，如下图所示。图中的每一个颜色都可以视为一个盒子，只不过盒子里面我们没有添加内容。通过上面这个案例，我们应该不难理解盒子模型了吧。借用JAVA中的一句话“万物皆对象”，在前端中，万物皆盒子。

2024-12-12 10:14:25 272

原创 CSS基础05

我们知道在HTML中有块标签和行标签，定位就是HTML标签摆放的位置。通俗易懂的说就是在页面上摆放着写标签，使得网页赏心悦目。定位有两大要素：定位模式和偏移量。也就是说。

2024-12-11 11:01:20 1079

原创 CSS基础04

CSS为定位和浮动提供了一些属性，利用这些属性，可以建立列式布局，将布局的一部分与另一部分重叠，还可以完成多年以来通常需要使用多个表格才能完成的任务。定位的思想很简单，它允许定义元素框相对于其正常位置应该出现的位置，或者相对于父元素、另一个元素甚至浏览器窗口本身的位置。显然，这个功能是非常强大的。div、h1、p元素通常称为块状元素。这意味着这些元素显示为一块内容，即“块框”。与之相反，span等元素称为行内元素，这时因为他们的内容显示在行中。可以使用display属性改变生成框的类型。

2024-12-10 22:30:35 302

原创 08爬虫：实战抓取北京新发地菜价信息

首先给出我自己编写的代码。接下来我们逐步分析如何完成上述的爬虫代码。

2024-12-10 16:58:27 1455

原创 CSS基础03

现在水平很low的，还请大家多多见谅。制作简易的风景宣传网页。

2024-12-10 15:35:31 79

原创 CSS基础02

不足之处希望大家批评指正。伪类也是选择器的一种。

2024-12-09 21:14:28 148

原创 HTML基础+css基础01

HTML是一种超文本标记语言，并不是编程语言。经过浏览器的解释和编译，虽然HTML本身不能显示在浏览器中，但是在浏览器中可以正确显示HTML标记的内容。HTML最基本的语法结构是。标记符都是成对使用的，也存在单一使用的，比如换行。

2024-12-09 17:15:30 337

原创 07爬虫：selenium

selenium是一种网页自动化测试工具，可以按照指定的命令自动操作网页。selenium支持现阶段主流的浏览器。如果想要selenium驱动浏览器，需要在自己的电脑上安装对应的驱动。我们一般使用Chrome，因此需要安装Chromedriver。下面，详细介绍如何在mac电脑上安装Chrome、Chromedriver。

2024-11-26 16:52:41 787

原创 06爬虫：requests进阶

post请求一般用于登录。我们通过登录超级鹰这个案例展示如何使用post。废话不多说，直接上代码。通过对比网页内容和爬虫抓取的内容，超级鹰网页爬取成功。首先，通过get请求获取登录验证码图片，通过第三方库ddddocr识别验证码，识别的结果作为超级鹰登录url的参数，最终发送post请求，获取网页内容。

2024-11-25 17:13:38 695

原创 05爬虫：网页数据解析

中，我们通过parsel中的xpath实现网页数据的提取。其实，网页数据提取有很多常用的方法，比如说正则表达式，xpath，bs4等。

2024-11-24 18:57:54 656

原创爬虫04:利用requests实现豆瓣top250电影信息的抓取

首先给出自己编写的源代码以及对应的运行结果（翻页抓取两页），最后对代码以及网页结构逐次分析。

2024-11-22 23:13:34 2125

原创爬虫03:解析requests

通常我们使用requests.get()或requests.post()发送请求。实际上是调用了内部的request()方法，并将'get'作为请求方法传入。params是传入的参数，一般是url中的参数。在如下的url中，“？”号之后的为对应的参数，参数传入的格式必须是字典的样式。**kwargs是python函数中的关键字参数缩写，存储着函数调用时传递的额外关键字参数。它允许函数接收任意数量的关键字参数，提供灵活的方式传递数据。这是python中特有的传递参数的方法。

2024-11-22 16:50:37 523

原创爬虫学习02:如何在pycharm上正确安装第三方package

requests属于第三方库，下面简要的说明一下如何安装requests库。

2024-11-22 11:27:20 842

原创爬虫学习01:mac电脑配置python，pycharm

如果想要更新某软件，一种方法是先通过卸载命令将该软件卸载，然后使用安装命令进行安装，homebrew会自动安装最新的软件。创建项目时要指定需要的python解释器的路径homebrew安装python的位置。如果使用homebrew模块安装某软件，首先要知道该软件的英文名称，通过输入对应的命令行可以自动完成软件的下载安装。homebrew是macbook管理/安装/卸载开源软件的功能模块，注意需要苹果os10以上的版本。会提示选择安装的镜像源，我这里选择的是清华大学的镜像源。（1）打开终端，在终端输入。

2024-11-21 17:37:41 1052

qq_37587269的博客

原创 windows电脑上安装llama-factory实现大模型微调

原创 22爬虫：使用Drission Page的两个案例

原创 21爬虫：使用playwright接管本地已经登录淘宝的浏览器并查找python相关店铺信息

原创 20爬虫：使用playwright与图鉴破解豆瓣滑动验证码

原创 19爬虫：使用playwright登录超级鹰

原创 18爬虫:关于playwright相关内容的学习

原创 17爬虫:关于DrissionPage相关内容的学习01

原创 python基础02：字典

原创 python基础01:列表与元组

原创 16爬虫：使用requests和scrapy分别从链家获取二手房信息

原创 js基础02

原创 js基础01

原创 15爬虫：下载器中间件

原创 14爬虫：scrapy实现翻页爬取

原创 13爬虫：使用scrapy实现图片之家中男明星专辑中图片的下载

原创 12爬虫：scrapy爬虫框架

原创 11爬虫：使用requests和selenium分别抓取4399网页游戏名称

原创 10爬虫：获取xfz的热点信息

原创 09爬虫：获取TX的招聘岗位信息

原创 CSS基础07

原创 CSS基础07

原创 CSS基础06

原创 CSS基础05

原创 CSS基础04

原创 08爬虫：实战抓取北京新发地菜价信息

原创 CSS基础03

原创 CSS基础02

原创 HTML基础+css基础01

原创 07爬虫：selenium

原创 06爬虫：requests进阶

原创 05爬虫：网页数据解析

原创爬虫04:利用requests实现豆瓣top250电影信息的抓取

原创爬虫03:解析requests

原创爬虫学习02:如何在pycharm上正确安装第三方package

原创爬虫学习01:mac电脑配置python，pycharm

spark机器学习Kmeans聚类

空空如也