- 博客(142)
- 收藏
- 关注
原创 python爬虫系列课程8:js浏览器window对象属性
在Web开发中,document 对象是DOM(文档对象模型)的一部分,它代表了整个HTML文档,并提供了多种属性和方法来访问和操作文档的内容、结构和样式。:即文档对象模型,Document Object Model,用于操作页面元素,DOM可以把HTML看作是文档树,通过DOM提供的API可以对树上的节点进行操作。:即JS的基本语法,JavaScript的核心,描述了语言的基本语法和数据类型,ECMAScript是一套标准,定义了一种语言的标准,与具体实现无关。
2025-03-08 22:51:54
115
原创 python爬虫系列课程7:ajax
ajax是Asynchronous JavaScript and XML的简写,ajax是一个前后端配合的技术,它可以让JavaScript发送异步的http请求,与后台通信进行数据的获取,ajax最大的优点是实现局部刷新,ajax可以发送http请求,当获取到后台数据的时候更新页面显示数据实现局部刷新,在这里大家只需要记住,当前端页面想和后台服务器进行数据交互就可以使用ajax了。
2025-03-08 21:29:26
277
原创 python实战项目61:去除文本中的表情符号
假设现在有一段文本:“这是一个包含😊表情符号的句子。还有更多像这样的心形❤️和笑脸😀。”,需要编写一段python代码把文本中的表情符号去除掉,达到以下效果:“这是一个包含表情符号的句子。还有更多像这样的心形和笑脸。”下面我们借助AI工具来实现这一目的。
2025-03-08 19:32:28
74
原创 python实战项目60:汽车之家品牌参数配置数据采集
参数配置页面抓包,找到数据接口,构造请求获取数据。如下图所示,点击任意一款车辆,点击参数配置选项。发送请求,获取seriesid。
2025-03-07 21:53:45
494
原创 python爬虫系列课程5:JavaScript语法介绍
JavaScript是一种弱类型语言,也就是说不需要指定变量的类型,JavaScript的变量类型由它的值来决定,定义变量需要用关键字’var’,一条JavaScript语句应该以";"结尾定义变量的语法格式:var 变量名=值;// 同时定义多个变量可以用","隔开,公用一个"var"关键字// 函数定义// 函数调用func()// 传参add(2, 4)// 内部函数外部调用 导出方法!cc();bc = cc;// 全局导出内部变量}())bc()
2025-03-02 13:08:35
56
原创 python实战项目58:采集蜻蜓FM热门音频top排行榜
蜻蜓FM热门音频top排行榜的链接为:,首页如下图所示:采集的思路为1、抓包、找到数据接口;2、发送请求;3、接收请求、提取数据;4、保存数据。
2025-02-25 23:31:01
204
原创 python爬虫系列课程3:解决爬虫过程中遇到的编码问题
这是因为requests模块在解析响应数据时,会以推断的字符集去解析,有时候会出错,就会出现乱码问题,这时需要我们自己去指定字符集。或者使用更为简单通用的方法,直接添加一行代码。
2025-02-18 22:37:52
235
原创 python爬虫系列课程2:如何下载Xpath Helper
点击浏览器右上方的三个点的图标,再点击扩展程序,最后点击管理扩展程序,将右上角的开发者模式图标打开。将下载的文件全部解压缩,把后缀名为crx的文件重命名为xpath.crx。将xpath.crx文件拖拽到扩展程序界面,点击添加扩展程序,安装完毕。
2025-02-18 21:43:12
352
原创 python爬虫系列课程1:初识爬虫
通用爬虫可以提取大多数网站的数据,但是对于网站中某些特殊数据的提取方式没有实现。自定义爬虫可以针对某一种网站自行开发符合要求的爬虫。
2025-02-18 20:34:58
727
原创 python实战项目57:根据电影名称在themoviedb搜索电影详情
已知电影名称,在themoviedb电影网站搜索电影的导演、演员、时长、简介、评分等数据,接下来是实现过程。编写代码提取出详情页的标题,上映时间、类型、时长、导演、剧情简介等信息并保存。编写代码提取出结果页第一个结果的详情页url。
2025-01-01 11:39:07
121
原创 python实战项目56:猫眼影片总票房排行榜
接下来再编写爬虫代码时注意携带cookie、headers和载荷中的参数。取出数据包中的数据,再使用xpath表达式提取数据。需求就是采集猫眼影片总票房排行榜上的数据。获取到的数据是json类型的数据,先通过。使用csv文件格式保存数据。
2024-12-31 16:32:18
125
原创 python实战项目55:多线程爬取笔趣阁小说
需求是使用多线程爬取笔趣阁网站小说的所有章节内容并保存,多线程分别使用了concurrent.futures线程池和threading模块。
2024-12-26 13:43:16
1232
原创 python实战项目53:drissionpage采集某程无忧招聘数据
首先说点废话,技术更新的速度很快,之前一直在使用selenium,但随着selenium运用的增多,网站对于selenium的识别也越来越厉害。无意间,本人接触到了DrissionPage,忍不住要向大家安利一下,个人感觉比selenium方便很多,因为不需要不断地下载然后更新驱动,不需要繁琐的操作,DrissionPage把例如执行JS代码的方法封装好了,调用起来真的方便。开始正题,新建一个临时py文件,并输入以下代码,填入您电脑里的Chrome浏览器可执行文件路径,然后运行。
2024-12-23 13:32:41
227
原创 python实战项目52:Selenium爬取steam黑神话悟空评论
Selenium爬取steam游戏评论的思路非常简单,初始化Chromedriver,然后打开评论页面,循环下拉滚动条,每下拉一次滚动条获取一次页面源代码,使用xpath解析数据并保存数据。本文的主要目的是为大家提供完整可执行的代码,以此帮助需要的人尽快获取到数据,降低时间成本。
2024-11-03 23:53:50
1374
原创 python实战项目51:selenium结合requests获取某众点评评论
寻找数据接口,发送请求、获取数据、解析数据、保存数据,这是python爬虫的基本步骤,这里就不再做详细展示,重点是使用requests携带上一步中获取到的cookies。首先,初始化selenium的webdriver,然后使用webdriver打开某众点评主页,之后手动扫码登录,利用selenium的get_cookies()方法获取cookies。某众点评的cookies只能用于发送50次请求,之后便会过期,过期之后就需要重新登录,程序中解决了这个问题,但需要准备两个账号以进行切换登录。
2024-11-01 19:48:21
531
原创 python实战项目50:js逆向某蜂窝评论
在控制台下方输入代码Function.prototype.constructor = function(){}并执行,然后点击跳过断点即可。然后截取32位md5加密后的值中下标为[2, 12]的值,便是_sn。首先,添加一个xhr断点。
2024-10-29 21:25:21
517
原创 python实战项目49:足彩开奖竞猜数据抓取
其中,clientCode为固定值,matchId可以在上一步中获取的响应中得到。由于获取到的是json数据,直接使用python中字典的获取数据的方法即可。打开开发者工具,刷新页面,找到数据接口为xhr数据包。
2024-10-29 16:49:44
503
原创 python实战项目48:实某僧字体反爬
图中url的内容加上网站前缀“https://www.shixiseng.com/”,在地址栏中输入之后可以下载字体文件。为网页指定字体,开发者可将心仪的字体文件放在web服务器上,并在css样式中使用它。这里使用的是fontTools库,加载字体文件之后使用对应的方法获取到unicode编码,然后将unicode编码转换为16进制字符串,最后进行相应的替换。字体加密就是利用前端技术干扰,但是页面可以正常展示数据,而使用爬虫获取后无法提取正常的数据。目前的技术开发者可以使用。
2024-10-25 21:59:05
117
原创 python实战项目47:Selenium采集百度股市通数据
这里以获取百度股市通股评下的投票数据为例,页面中的其他数据同理。思路很简单,通过Selenium打开页面,然后定位到“股评”选项卡,再模拟点击“今日”或者“本周”“本月”“今年”,接下来获取页面源代码,再使用xpath解析页面数据。但需要注意的是,使用Selenium打开的页面过多的话,会遇到cookie反爬。这里重点解决的是,在每次打开页面操作之前和之后,需要使用Selenium的delete_all_cookies()方法删除cookie,这样便可以绕过cookie反爬,亲测有效。
2024-10-24 18:26:48
980
原创 python实战项目46:selenium爬取百度新闻
思路是首先使用selenium打开百度新闻页面,然后实现翻页操作,获取每条新闻的标题和链接。接下来的问题是,在遍历标题和链接,对每一个链接发送请求时,发现会弹出百度安全验证,本文的思路是使用selenium处理安全验证问题。虽然速度相对较慢,但是获取的数据是完整的,实测可用。
2024-10-22 19:14:10
797
原创 python实战项目45:采集百度资讯
接下来,使用requests库发送请求,发送请求时注意携带cookie、referer、user-agent等参数。这里使用BeautifulSoup库解析提取数据,具体使用方法这里不再赘述。
2024-10-22 17:47:21
180
原创 python实战项目44:某眼电影字体反爬
下载完字体文件之后,只要将其中的字符编码和数字对应的信息提取出来,再把网页源码中的字符编码替换掉,就能得到我们想要的数据了。这里要用到一个三方库fontTools,利用fontTools可以获取每一个字符对象,这个对象你可以简单的理解为保存着这个字符的形状信息,而且编码可以作为这个对象的id,具有一一对应的关系。最后再使用PIL库和ddddocr图片识别库对图像进行识别,提取出字符编码和数字的对应关系,保存为一个字典,这样就实现了字符编码和真实数字的映射。
2024-10-20 17:35:16
210
原创 python实战项目43:采集汽车之家数据
打开浏览器开发者工具,刷新页面,找到数据接口。接下来,通过翻页寻找接口url的变化规律,发现接口的url在页码发生变化时,最后一个1发生了变化,其他不变,这样方便我们接下来构造url进行翻页。接下来,使用requests库向该接口发送get请求,携带user-agent,referer等参数。这里使用xpath表达式进行数据解析和提取,使用csv库进行数据存储。
2024-10-18 22:42:37
600
原创 python实战项目42:themoviedb电影网站信息
可以观察到,详情页的url在上一步的响应中,这里使用BeautifulSoup库对响应数据进行解析,提取出全部的详情页url,但要注意的是,详情页的完整url需要进行拼接,加上前缀“https://www.themoviedb.org/”。详情页信息的获取方式和第一步一致,首先要找到数据接口,然后发送请求,获取响应,最后使用BeautifulSoup库解析数据。寻找到数据接口,如下图所示,请求方式为POST,请求所携带的相关信息在标头和载荷中均可以查看。打开网站首页,F12打开开发者工具,刷新页面。
2024-10-18 17:58:00
327
原创 python实战项目39--某动漫信息采集
如上图所示,使用xpath提取详情页的标题、作者、评分、人气、评论人数等数据。使用xpath提取详情页url。打开开发者工具,找到数据接口。
2024-10-10 17:10:57
943
原创 js逆向--某招标公告公示搜索引擎
试图通过按F12或者右键打开开发者工具,发现均没有反应。这时需要点击浏览器右上角的三个点,然后点击更多工具–开发者工具,通过这种方式打开开发者工具。接下来,刷新页面或者点击下一页进行抓包,找到数据接口,但发现响应数据被加密。单步点击上图中的图标(继续执行脚本),直到控制台中展示出明文,这时说明已经解密完成。打开网页,在搜索框中输入关键词python。点击下一页,发现断点断住了。通过调用堆栈找到解密入口。
2024-10-07 11:38:09
624
原创 python实战项目38:js逆向--某建筑市场公共监管服务平台
点击上图中的图标进入b方法,找到加密入口。打开源代码/来源界面,下一个XHR断点。很容易找到数据接口,发现响应加密了。发现到下图中的位置时,明文出现了。点击翻页,发现代码断住了。
2024-09-25 11:22:22
170
原创 2024年9月python二级基本编程题和简单应用题解析(一)
问题2 (10分) :在右侧模板中修改代码,读入“earpa001.txt”文件中的数据,统计earpa001对应的职员在各楼层和区域出现的次数,保存到“earpa001_count.txt”文件,每一条纪录一行,位置信息和出现的次数之间用英文半角逗号隔开,行尾无空格无空行。注意,中文字符包含中文标点符号。工业/ 互联网/实施/ 的/ 方式/是/ 通过/ 通信/控制/ 和/ 计算技术/的/ 交叉/ 应用/建造/ 一个/ 信息/物理/ 系统/ 促进/物理/ 系统/ 和/数字/ 系统/ 的/融合/
2024-09-20 19:51:59
309
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人