自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 资源 (1)
  • 收藏
  • 关注

原创 windows电脑上安装llama-factory实现大模型微调

这是官方给的llama-factory安装教程,,上面介绍了linux系统上以及windows系统上如何正确安装。大家依照安装步骤基本能够完成安装,但是可能由于缺少经验或者相关的知识导致启动webUi界面运行相应内容时会报各种错误。特别需要注意的是:一定要有英伟达的显卡。如果没有显卡的GPU加速,模型的训练时间是非常长的。

2025-03-02 15:07:27 2528

原创 22爬虫:使用Drission Page的两个案例

使用requests获取BOSS网站上的内容是非常困难的,但是通过网页自动化工具DrissionPage或者是Playwright或者是Seleenium是非常容易的,接下来我们就给出使用DrissionPage爬取BOSS网站python招聘的信息,仅供学习参考。在上述的程序中,我们使用DrissionPage种自带的监听技术获取Ajax相应数据。分析BOSS网站返回的数据,发现他是Ajax请求,当让页不可以使用监听技术,直接等待页面加载完毕之后定位元素所在的位置即可。

2025-02-21 14:10:21 957

原创 21爬虫:使用playwright接管本地已经登录淘宝的浏览器并查找python相关店铺信息

(1)首先找到电脑上安装的Chrome浏览器可执行程序的完整路径:Mac电脑上可执行程序的完整路径为:windows系统的电脑上查找可执行文件的完整路径:右键 Chrome 浏览器桌面图标,找到 chrome.exe 的安装路径(2)将Chrome浏览器可执行程序的完整路径配置到环境变量中,也可以不配置。

2025-02-14 10:16:58 588

原创 20爬虫:使用playwright与图鉴破解豆瓣滑动验证码

整个浏览器的坐标系示意图如下图所示,原点在网页的左上角,水平向右是x轴正方向,水平向下是y轴正方向,这个基础知识对于接下来使用playwright模拟鼠标点击滑动验证是非常重要的。

2025-02-07 15:59:09 464

原创 19爬虫:使用playwright登录超级鹰

本次案例一共解决了如下两个问题:(1)如何使用playwright截图,特别是验证码图片(2)在playwright中如何判断一个元素可见。

2025-02-05 14:37:03 1154

原创 18爬虫:关于playwright相关内容的学习

打开pycharm,进入终端,输入如下的2个命令行代码即可自动完成playwright的安装pip install playwright ——》在python中安装playwright第三方模块playwright install ——》安装playwright所需的工具插件和所支持的浏览器看到这里,是否想要动手进行安装。先不要着急,playwright对安装环境也是有一定要求的。

2025-02-05 10:16:04 1017

原创 17爬虫:关于DrissionPage相关内容的学习01

前面我们已经大致了解了selenium的用法,DerssionPage同selenium一样,也是一个基于Python的网页自动化工具。DrissionPage既可以实现网页的自动化操作,也能够实现收发数据包,也可以把两者的功能合二为一。DressionPage的有点在于既可以兼顾selenium自动操作网页的便捷性,还不需要像selenium那样配置chromedriver,也不需要过一段时间更新chrome浏览器和chromedriver。

2024-12-30 14:49:33 3313

原创 python基础02:字典

【代码】python基础02:字典。

2024-12-27 17:29:49 355

原创 python基础01:列表与元组

列表是可变的序列,也是一种存储各种数据的集合,用中括号[]表示列表的结束与开始,各个元素之间通过逗号分隔。

2024-12-27 15:59:22 141

原创 16爬虫:使用requests和scrapy分别从链家获取二手房信息

在scrapy中只修改了上述的内容,其他的组件代码保持不动。

2024-12-24 16:21:34 408

原创 js基础02

js中的内置对象,在接下来的内容中,我们将逐一介绍字符串、数学对象、日期对象、数组对象。

2024-12-24 15:29:26 691

原创 js基础01

js的全称是javascript。js是基于事件驱动的,可以捕捉到用户在浏览器中的操作行为,能够将原来静态的HTML页面变成可以和用户交互的动态页面。具体来说,js的功能如下:(1)动态改变网页内容。HTML是静态语言,js可以弥补这方面的不足,将内容动态的显示在网页中。(2)动态改变网页的外观。js通过修改css样式,可以动态的改变网页的外观。(3)验证表单数据。用户在填写表单数据时,可以对用户填写的数据进行合法化交验,提高网页的效率。(4)响应事件。在事件产生后才会执行某一段js代码。

2024-12-23 17:12:23 1051

原创 15爬虫:下载器中间件

(2)SeleniumRequest请求对象在传递给downloader的过程中,遇到了下载器中间件(中间件我们可以简单的理解为一堵墙,只有符合条件的才能放行)。但是页面2的url我们封装的是seleniumRequest,因此在下载器中间的process_request方法中实现selenium数据获取并返回Response对象,按照scrapy规则,process_request方法返回Response对象直接给engine,相当于把流程在下载器中间件处截断。

2024-12-20 12:48:45 436

原创 14爬虫:scrapy实现翻页爬取

:观察页面源代码,发现url直接在源代码中体现,对应的解决方案是:(1)访问第一页,(2)提取下一页url,(3)提取下一页url,一直重复该流程到最后一页。:观察页面源代码,发现url不能在源代码中体现,对应的解决方案是:直接观察页面总数,观察每一页url的变化规律,通过程序模拟出每一页的url。例如点击加载更多,或者鼠标向下滑动才能加载更多信息的分页逻辑属于不正常的分页。:加载更多,点击之后才可以加载下一页的内容。对应的解决方案是:通过抓包找到url的变化规律,。

2024-12-19 14:46:46 1188

原创 13爬虫:使用scrapy实现图片之家中男明星专辑中图片的下载

在这个案例中,我们使用scrapy抓取图片之间某个模块的图片,整个框架的工作流程如上图所示。橘色线表示scrapy对初始url所在的服务器发起请求,绿色线表示scrapy对子页面url所在的服务器发起请求,黑色线表示scarpy下载图片的流程。对应的步骤如下:(1-1)engine从spider中提取初始url的Request对象,随后将该对象放入schedule中;(1-2)某时刻,engine将该Request对象从schedule中提取出来,发送至downloader中;

2024-12-18 17:29:24 328

原创 12爬虫:scrapy爬虫框架

简单的说,scrapy是一个爬虫框架,属于项目的半成品,集成了各种功能且具有较强的通用性,其本身就具有协程功能。scrapy主要包含5大模块,分别为引擎(engine)、调度器(scheduler)、下载器(downloader)、爬虫(spider)、管道(pipeline)五大基本模块。各个模块的基本功能如下:(1)引擎(engine):scrapy的核心模块,衔接其他所有模块,所有的数据流都要经过引擎。

2024-12-18 12:40:06 1028

原创 11爬虫:使用requests和selenium分别抓取4399网页游戏名称

我们分别通过requests和selenium抓取4399网页中的游戏名称,作为对前面知识的复习。

2024-12-17 16:42:02 186

原创 10爬虫:获取xfz的热点信息

当我们在网页上点击查看更多,抓取新的请求,发现请求参数中只有p的取值从1变为2,在继续点击查看更多,p的取值变为3。n表示每一页有多少条新闻。请求返回的数据格式是json格式。如何获取每条新闻的具体内容呢。通过进入每一条新闻所在的页面,我们可以发现所有网页的url地址存在如下的规律:结合上图,我们可以得到对应的uid信息。

2024-12-17 09:30:04 252

原创 09爬虫:获取TX的招聘岗位信息

首先,我们通过使用network找出对应的url(这里涉及前端Ajax技术,感兴趣的小伙伴可以先自行学习)。细心的小伙伴可以发现,在使用network时将选项卡选定到Fetch/XHR上。如果我们继续将选项卡选定在all上,会抓取一堆请求,我们需要在这一堆请求中找到真正获取数据的请求比较困难。当我们将选项卡定位到Fetch/XHR后,可以轻易的找到真正获取的数据的请求。找到发送数据的请求后,接下来就是如何爬取相应的招聘信息,以及如何翻页爬取。

2024-12-16 17:12:53 272

原创 CSS基础07

我们利用浮动和定位,顺道复习前期学习的选择器相关知识,实现豆瓣TOP250电影网页的初步布局。

2024-12-12 15:49:18 154

原创 CSS基础07

使用浮动和定位属性完成豆瓣电影网站样式的初步排版。这时我们自己做出的效果图与豆瓣电影网站的对比。

2024-12-12 15:46:03 168

原创 CSS基础06

盒子模型就是把页面中的HTML元素看作是一个矩形的盒子,也就是盛装容器的盒子。通俗的讲就是在,包括边框、外边距(盒子与盒子之间的距离或者盒子与网页边的距离)、内边距(盒子里面的内容与盒子边框之间的距离)、内容。在前期CSS基础04这篇文章中,我们初步设计了一个网页布局,如下图所示。图中的每一个颜色都可以视为一个盒子,只不过盒子里面我们没有添加内容。通过上面这个案例,我们应该不难理解盒子模型了吧。借用JAVA中的一句话“万物皆对象”,在前端中,万物皆盒子。

2024-12-12 10:14:25 272

原创 CSS基础05

我们知道在HTML中有块标签和行标签,定位就是HTML标签摆放的位置。通俗易懂的说就是在页面上摆放着写标签,使得网页赏心悦目。定位有两大要素:定位模式和偏移量。也就是说。

2024-12-11 11:01:20 1079

原创 CSS基础04

CSS为定位和浮动提供了一些属性,利用这些属性,可以建立列式布局,将布局的一部分与另一部分重叠,还可以完成多年以来通常需要使用多个表格才能完成的任务。定位的思想很简单,它允许定义元素框相对于其正常位置应该出现的位置,或者相对于父元素、另一个元素甚至浏览器窗口本身的位置。显然,这个功能是非常强大的。div、h1、p元素通常称为块状元素。这意味着这些元素显示为一块内容,即“块框”。与之相反,span等元素称为行内元素,这时因为他们的内容显示在行中。可以使用display属性改变生成框的类型。

2024-12-10 22:30:35 302

原创 08爬虫:实战抓取北京新发地菜价信息

首先给出我自己编写的代码。接下来我们逐步分析如何完成上述的爬虫代码。

2024-12-10 16:58:27 1455

原创 CSS基础03

现在水平很low的,还请大家多多见谅。制作简易的风景宣传网页。

2024-12-10 15:35:31 79

原创 CSS基础02

不足之处希望大家批评指正。伪类也是选择器的一种。

2024-12-09 21:14:28 148

原创 HTML基础+css基础01

HTML是一种超文本标记语言,并不是编程语言。经过浏览器的解释和编译,虽然HTML本身不能显示在浏览器中,但是在浏览器中可以正确显示HTML标记的内容。HTML最基本的语法结构是。标记符都是成对使用的,也存在单一使用的,比如换行。

2024-12-09 17:15:30 337

原创 07爬虫:selenium

selenium是一种网页自动化测试工具,可以按照指定的命令自动操作网页。selenium支持现阶段主流的浏览器。如果想要selenium驱动浏览器,需要在自己的电脑上安装对应的驱动。我们一般使用Chrome,因此需要安装Chromedriver。下面,详细介绍如何在mac电脑上安装Chrome、Chromedriver。

2024-11-26 16:52:41 787

原创 06爬虫:requests进阶

post请求一般用于登录。我们通过登录超级鹰这个案例展示如何使用post。废话不多说,直接上代码。通过对比网页内容和爬虫抓取的内容,超级鹰网页爬取成功。首先,通过get请求获取登录验证码图片,通过第三方库ddddocr识别验证码,识别的结果作为超级鹰登录url的参数,最终发送post请求,获取网页内容。

2024-11-25 17:13:38 695

原创 05爬虫:网页数据解析

中,我们通过parsel中的xpath实现网页数据的提取。其实,网页数据提取有很多常用的方法,比如说正则表达式,xpath,bs4等。

2024-11-24 18:57:54 656

原创 爬虫04:利用requests实现豆瓣top250电影信息的抓取

首先给出自己编写的源代码以及对应的运行结果(翻页抓取两页),最后对代码以及网页结构逐次分析。

2024-11-22 23:13:34 2125

原创 爬虫03:解析requests

通常我们使用requests.get()或requests.post()发送请求。实际上是调用了内部的request()方法,并将'get'作为请求方法传入。params是传入的参数,一般是url中的参数。在如下的url中,“?”号之后的为对应的参数,参数传入的格式必须是字典的样式。**kwargs是python函数中的关键字参数缩写,存储着函数调用时传递的额外关键字参数。它允许函数接收任意数量的关键字参数,提供灵活的方式传递数据。这是python中特有的传递参数的方法。

2024-11-22 16:50:37 523

原创 爬虫学习02:如何在pycharm上正确安装第三方package

requests属于第三方库,下面简要的说明一下如何安装requests库。

2024-11-22 11:27:20 842

原创 爬虫学习01:mac电脑配置python,pycharm

如果想要更新某软件,一种方法是先通过卸载命令将该软件卸载,然后使用安装命令进行安装,homebrew会自动安装最新的软件。创建项目时要指定需要的python解释器的路径homebrew安装python的位置。如果使用homebrew模块安装某软件,首先要知道该软件的英文名称,通过输入对应的命令行可以自动完成软件的下载安装。homebrew是macbook管理/安装/卸载开源软件的功能模块,注意需要苹果os10以上的版本。会提示选择安装的镜像源,我这里选择的是清华大学的镜像源。(1)打开终端,在终端输入。

2024-11-21 17:37:41 1052

spark机器学习Kmeans聚类

spark机器学习,Scala语言开发,能够实现Kmeans聚类。

2018-06-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除