- 博客(35)
- 资源 (1)
- 收藏
- 关注
原创 windows电脑上安装llama-factory实现大模型微调
这是官方给的llama-factory安装教程,,上面介绍了linux系统上以及windows系统上如何正确安装。大家依照安装步骤基本能够完成安装,但是可能由于缺少经验或者相关的知识导致启动webUi界面运行相应内容时会报各种错误。特别需要注意的是:一定要有英伟达的显卡。如果没有显卡的GPU加速,模型的训练时间是非常长的。
2025-03-02 15:07:27
2528
原创 22爬虫:使用Drission Page的两个案例
使用requests获取BOSS网站上的内容是非常困难的,但是通过网页自动化工具DrissionPage或者是Playwright或者是Seleenium是非常容易的,接下来我们就给出使用DrissionPage爬取BOSS网站python招聘的信息,仅供学习参考。在上述的程序中,我们使用DrissionPage种自带的监听技术获取Ajax相应数据。分析BOSS网站返回的数据,发现他是Ajax请求,当让页不可以使用监听技术,直接等待页面加载完毕之后定位元素所在的位置即可。
2025-02-21 14:10:21
957
原创 21爬虫:使用playwright接管本地已经登录淘宝的浏览器并查找python相关店铺信息
(1)首先找到电脑上安装的Chrome浏览器可执行程序的完整路径:Mac电脑上可执行程序的完整路径为:windows系统的电脑上查找可执行文件的完整路径:右键 Chrome 浏览器桌面图标,找到 chrome.exe 的安装路径(2)将Chrome浏览器可执行程序的完整路径配置到环境变量中,也可以不配置。
2025-02-14 10:16:58
588
原创 20爬虫:使用playwright与图鉴破解豆瓣滑动验证码
整个浏览器的坐标系示意图如下图所示,原点在网页的左上角,水平向右是x轴正方向,水平向下是y轴正方向,这个基础知识对于接下来使用playwright模拟鼠标点击滑动验证是非常重要的。
2025-02-07 15:59:09
464
原创 19爬虫:使用playwright登录超级鹰
本次案例一共解决了如下两个问题:(1)如何使用playwright截图,特别是验证码图片(2)在playwright中如何判断一个元素可见。
2025-02-05 14:37:03
1154
原创 18爬虫:关于playwright相关内容的学习
打开pycharm,进入终端,输入如下的2个命令行代码即可自动完成playwright的安装pip install playwright ——》在python中安装playwright第三方模块playwright install ——》安装playwright所需的工具插件和所支持的浏览器看到这里,是否想要动手进行安装。先不要着急,playwright对安装环境也是有一定要求的。
2025-02-05 10:16:04
1017
原创 17爬虫:关于DrissionPage相关内容的学习01
前面我们已经大致了解了selenium的用法,DerssionPage同selenium一样,也是一个基于Python的网页自动化工具。DrissionPage既可以实现网页的自动化操作,也能够实现收发数据包,也可以把两者的功能合二为一。DressionPage的有点在于既可以兼顾selenium自动操作网页的便捷性,还不需要像selenium那样配置chromedriver,也不需要过一段时间更新chrome浏览器和chromedriver。
2024-12-30 14:49:33
3313
原创 js基础01
js的全称是javascript。js是基于事件驱动的,可以捕捉到用户在浏览器中的操作行为,能够将原来静态的HTML页面变成可以和用户交互的动态页面。具体来说,js的功能如下:(1)动态改变网页内容。HTML是静态语言,js可以弥补这方面的不足,将内容动态的显示在网页中。(2)动态改变网页的外观。js通过修改css样式,可以动态的改变网页的外观。(3)验证表单数据。用户在填写表单数据时,可以对用户填写的数据进行合法化交验,提高网页的效率。(4)响应事件。在事件产生后才会执行某一段js代码。
2024-12-23 17:12:23
1051
原创 15爬虫:下载器中间件
(2)SeleniumRequest请求对象在传递给downloader的过程中,遇到了下载器中间件(中间件我们可以简单的理解为一堵墙,只有符合条件的才能放行)。但是页面2的url我们封装的是seleniumRequest,因此在下载器中间的process_request方法中实现selenium数据获取并返回Response对象,按照scrapy规则,process_request方法返回Response对象直接给engine,相当于把流程在下载器中间件处截断。
2024-12-20 12:48:45
436
原创 14爬虫:scrapy实现翻页爬取
:观察页面源代码,发现url直接在源代码中体现,对应的解决方案是:(1)访问第一页,(2)提取下一页url,(3)提取下一页url,一直重复该流程到最后一页。:观察页面源代码,发现url不能在源代码中体现,对应的解决方案是:直接观察页面总数,观察每一页url的变化规律,通过程序模拟出每一页的url。例如点击加载更多,或者鼠标向下滑动才能加载更多信息的分页逻辑属于不正常的分页。:加载更多,点击之后才可以加载下一页的内容。对应的解决方案是:通过抓包找到url的变化规律,。
2024-12-19 14:46:46
1188
原创 13爬虫:使用scrapy实现图片之家中男明星专辑中图片的下载
在这个案例中,我们使用scrapy抓取图片之间某个模块的图片,整个框架的工作流程如上图所示。橘色线表示scrapy对初始url所在的服务器发起请求,绿色线表示scrapy对子页面url所在的服务器发起请求,黑色线表示scarpy下载图片的流程。对应的步骤如下:(1-1)engine从spider中提取初始url的Request对象,随后将该对象放入schedule中;(1-2)某时刻,engine将该Request对象从schedule中提取出来,发送至downloader中;
2024-12-18 17:29:24
328
原创 12爬虫:scrapy爬虫框架
简单的说,scrapy是一个爬虫框架,属于项目的半成品,集成了各种功能且具有较强的通用性,其本身就具有协程功能。scrapy主要包含5大模块,分别为引擎(engine)、调度器(scheduler)、下载器(downloader)、爬虫(spider)、管道(pipeline)五大基本模块。各个模块的基本功能如下:(1)引擎(engine):scrapy的核心模块,衔接其他所有模块,所有的数据流都要经过引擎。
2024-12-18 12:40:06
1028
原创 11爬虫:使用requests和selenium分别抓取4399网页游戏名称
我们分别通过requests和selenium抓取4399网页中的游戏名称,作为对前面知识的复习。
2024-12-17 16:42:02
186
原创 10爬虫:获取xfz的热点信息
当我们在网页上点击查看更多,抓取新的请求,发现请求参数中只有p的取值从1变为2,在继续点击查看更多,p的取值变为3。n表示每一页有多少条新闻。请求返回的数据格式是json格式。如何获取每条新闻的具体内容呢。通过进入每一条新闻所在的页面,我们可以发现所有网页的url地址存在如下的规律:结合上图,我们可以得到对应的uid信息。
2024-12-17 09:30:04
252
原创 09爬虫:获取TX的招聘岗位信息
首先,我们通过使用network找出对应的url(这里涉及前端Ajax技术,感兴趣的小伙伴可以先自行学习)。细心的小伙伴可以发现,在使用network时将选项卡选定到Fetch/XHR上。如果我们继续将选项卡选定在all上,会抓取一堆请求,我们需要在这一堆请求中找到真正获取数据的请求比较困难。当我们将选项卡定位到Fetch/XHR后,可以轻易的找到真正获取的数据的请求。找到发送数据的请求后,接下来就是如何爬取相应的招聘信息,以及如何翻页爬取。
2024-12-16 17:12:53
272
原创 CSS基础06
盒子模型就是把页面中的HTML元素看作是一个矩形的盒子,也就是盛装容器的盒子。通俗的讲就是在,包括边框、外边距(盒子与盒子之间的距离或者盒子与网页边的距离)、内边距(盒子里面的内容与盒子边框之间的距离)、内容。在前期CSS基础04这篇文章中,我们初步设计了一个网页布局,如下图所示。图中的每一个颜色都可以视为一个盒子,只不过盒子里面我们没有添加内容。通过上面这个案例,我们应该不难理解盒子模型了吧。借用JAVA中的一句话“万物皆对象”,在前端中,万物皆盒子。
2024-12-12 10:14:25
272
原创 CSS基础05
我们知道在HTML中有块标签和行标签,定位就是HTML标签摆放的位置。通俗易懂的说就是在页面上摆放着写标签,使得网页赏心悦目。定位有两大要素:定位模式和偏移量。也就是说。
2024-12-11 11:01:20
1079
原创 CSS基础04
CSS为定位和浮动提供了一些属性,利用这些属性,可以建立列式布局,将布局的一部分与另一部分重叠,还可以完成多年以来通常需要使用多个表格才能完成的任务。定位的思想很简单,它允许定义元素框相对于其正常位置应该出现的位置,或者相对于父元素、另一个元素甚至浏览器窗口本身的位置。显然,这个功能是非常强大的。div、h1、p元素通常称为块状元素。这意味着这些元素显示为一块内容,即“块框”。与之相反,span等元素称为行内元素,这时因为他们的内容显示在行中。可以使用display属性改变生成框的类型。
2024-12-10 22:30:35
302
原创 HTML基础+css基础01
HTML是一种超文本标记语言,并不是编程语言。经过浏览器的解释和编译,虽然HTML本身不能显示在浏览器中,但是在浏览器中可以正确显示HTML标记的内容。HTML最基本的语法结构是。标记符都是成对使用的,也存在单一使用的,比如换行。
2024-12-09 17:15:30
337
原创 07爬虫:selenium
selenium是一种网页自动化测试工具,可以按照指定的命令自动操作网页。selenium支持现阶段主流的浏览器。如果想要selenium驱动浏览器,需要在自己的电脑上安装对应的驱动。我们一般使用Chrome,因此需要安装Chromedriver。下面,详细介绍如何在mac电脑上安装Chrome、Chromedriver。
2024-11-26 16:52:41
787
原创 06爬虫:requests进阶
post请求一般用于登录。我们通过登录超级鹰这个案例展示如何使用post。废话不多说,直接上代码。通过对比网页内容和爬虫抓取的内容,超级鹰网页爬取成功。首先,通过get请求获取登录验证码图片,通过第三方库ddddocr识别验证码,识别的结果作为超级鹰登录url的参数,最终发送post请求,获取网页内容。
2024-11-25 17:13:38
695
原创 05爬虫:网页数据解析
中,我们通过parsel中的xpath实现网页数据的提取。其实,网页数据提取有很多常用的方法,比如说正则表达式,xpath,bs4等。
2024-11-24 18:57:54
656
原创 爬虫04:利用requests实现豆瓣top250电影信息的抓取
首先给出自己编写的源代码以及对应的运行结果(翻页抓取两页),最后对代码以及网页结构逐次分析。
2024-11-22 23:13:34
2125
原创 爬虫03:解析requests
通常我们使用requests.get()或requests.post()发送请求。实际上是调用了内部的request()方法,并将'get'作为请求方法传入。params是传入的参数,一般是url中的参数。在如下的url中,“?”号之后的为对应的参数,参数传入的格式必须是字典的样式。**kwargs是python函数中的关键字参数缩写,存储着函数调用时传递的额外关键字参数。它允许函数接收任意数量的关键字参数,提供灵活的方式传递数据。这是python中特有的传递参数的方法。
2024-11-22 16:50:37
523
原创 爬虫学习01:mac电脑配置python,pycharm
如果想要更新某软件,一种方法是先通过卸载命令将该软件卸载,然后使用安装命令进行安装,homebrew会自动安装最新的软件。创建项目时要指定需要的python解释器的路径homebrew安装python的位置。如果使用homebrew模块安装某软件,首先要知道该软件的英文名称,通过输入对应的命令行可以自动完成软件的下载安装。homebrew是macbook管理/安装/卸载开源软件的功能模块,注意需要苹果os10以上的版本。会提示选择安装的镜像源,我这里选择的是清华大学的镜像源。(1)打开终端,在终端输入。
2024-11-21 17:37:41
1052
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人