
Python副业接单实战项目
文章平均质量分 63
本专栏主要分享python爬虫技术,同时分享数据库操作、机器学习、数据可视化等方面对的技术,所有源代码均来源于实战项目,每个项目都提供了好用的、性能稳定出色的完整项目代码,帮助用户解决困惑和实际的困难。
wp_tao
wild programmer
展开
-
python爬虫系列课程8:js浏览器window对象属性
在Web开发中,document 对象是DOM(文档对象模型)的一部分,它代表了整个HTML文档,并提供了多种属性和方法来访问和操作文档的内容、结构和样式。:即文档对象模型,Document Object Model,用于操作页面元素,DOM可以把HTML看作是文档树,通过DOM提供的API可以对树上的节点进行操作。:即JS的基本语法,JavaScript的核心,描述了语言的基本语法和数据类型,ECMAScript是一套标准,定义了一种语言的标准,与具体实现无关。原创 2025-03-08 22:51:54 · 115 阅读 · 0 评论 -
python爬虫系列课程7:ajax
ajax是Asynchronous JavaScript and XML的简写,ajax是一个前后端配合的技术,它可以让JavaScript发送异步的http请求,与后台通信进行数据的获取,ajax最大的优点是实现局部刷新,ajax可以发送http请求,当获取到后台数据的时候更新页面显示数据实现局部刷新,在这里大家只需要记住,当前端页面想和后台服务器进行数据交互就可以使用ajax了。原创 2025-03-08 21:29:26 · 277 阅读 · 0 评论 -
python爬虫系列课程6:js定时器
定时器就是在一段特定的时间后执行某段程序代码。原创 2025-03-08 21:02:31 · 179 阅读 · 0 评论 -
python实战项目61:去除文本中的表情符号
假设现在有一段文本:“这是一个包含😊表情符号的句子。还有更多像这样的心形❤️和笑脸😀。”,需要编写一段python代码把文本中的表情符号去除掉,达到以下效果:“这是一个包含表情符号的句子。还有更多像这样的心形和笑脸。”下面我们借助AI工具来实现这一目的。原创 2025-03-08 19:32:28 · 77 阅读 · 0 评论 -
python实战项目60:汽车之家品牌参数配置数据采集
参数配置页面抓包,找到数据接口,构造请求获取数据。如下图所示,点击任意一款车辆,点击参数配置选项。发送请求,获取seriesid。原创 2025-03-07 21:53:45 · 494 阅读 · 0 评论 -
python爬虫系列课程5:JavaScript语法介绍
JavaScript是一种弱类型语言,也就是说不需要指定变量的类型,JavaScript的变量类型由它的值来决定,定义变量需要用关键字’var’,一条JavaScript语句应该以";"结尾定义变量的语法格式:var 变量名=值;// 同时定义多个变量可以用","隔开,公用一个"var"关键字// 函数定义// 函数调用func()// 传参add(2, 4)// 内部函数外部调用 导出方法!cc();bc = cc;// 全局导出内部变量}())bc()原创 2025-03-02 13:08:35 · 56 阅读 · 0 评论 -
python实战项目59:使用python获取腾讯招聘数据并保存到mysql数据库中
抓包,找到数据接口。原创 2025-02-26 21:22:52 · 249 阅读 · 0 评论 -
python爬虫系列课程4:一个例子学会使用xpath语法
【代码】python爬虫系列课程4:一个例子学会使用xpath语法。原创 2025-02-26 00:10:54 · 145 阅读 · 0 评论 -
python实战项目58:采集蜻蜓FM热门音频top排行榜
蜻蜓FM热门音频top排行榜的链接为:,首页如下图所示:采集的思路为1、抓包、找到数据接口;2、发送请求;3、接收请求、提取数据;4、保存数据。原创 2025-02-25 23:31:01 · 204 阅读 · 0 评论 -
python爬虫系列课程3:解决爬虫过程中遇到的编码问题
这是因为requests模块在解析响应数据时,会以推断的字符集去解析,有时候会出错,就会出现乱码问题,这时需要我们自己去指定字符集。或者使用更为简单通用的方法,直接添加一行代码。原创 2025-02-18 22:37:52 · 236 阅读 · 0 评论 -
python爬虫系列课程2:如何下载Xpath Helper
点击浏览器右上方的三个点的图标,再点击扩展程序,最后点击管理扩展程序,将右上角的开发者模式图标打开。将下载的文件全部解压缩,把后缀名为crx的文件重命名为xpath.crx。将xpath.crx文件拖拽到扩展程序界面,点击添加扩展程序,安装完毕。原创 2025-02-18 21:43:12 · 353 阅读 · 0 评论 -
python爬虫系列课程1:初识爬虫
通用爬虫可以提取大多数网站的数据,但是对于网站中某些特殊数据的提取方式没有实现。自定义爬虫可以针对某一种网站自行开发符合要求的爬虫。原创 2025-02-18 20:34:58 · 727 阅读 · 0 评论 -
python实战项目57:根据电影名称在themoviedb搜索电影详情
已知电影名称,在themoviedb电影网站搜索电影的导演、演员、时长、简介、评分等数据,接下来是实现过程。编写代码提取出详情页的标题,上映时间、类型、时长、导演、剧情简介等信息并保存。编写代码提取出结果页第一个结果的详情页url。原创 2025-01-01 11:39:07 · 121 阅读 · 0 评论 -
python实战项目56:猫眼影片总票房排行榜
接下来再编写爬虫代码时注意携带cookie、headers和载荷中的参数。取出数据包中的数据,再使用xpath表达式提取数据。需求就是采集猫眼影片总票房排行榜上的数据。获取到的数据是json类型的数据,先通过。使用csv文件格式保存数据。原创 2024-12-31 16:32:18 · 125 阅读 · 0 评论 -
python实战项目55:多线程爬取笔趣阁小说
需求是使用多线程爬取笔趣阁网站小说的所有章节内容并保存,多线程分别使用了concurrent.futures线程池和threading模块。原创 2024-12-26 13:43:16 · 1235 阅读 · 0 评论 -
python实战项目54:drissionpage采集某联招聘岗位信息
打开浏览器开发者工具,找到xhr数据包,即数据接口。原创 2024-12-23 13:38:29 · 121 阅读 · 0 评论 -
python实战项目53:drissionpage采集某程无忧招聘数据
首先说点废话,技术更新的速度很快,之前一直在使用selenium,但随着selenium运用的增多,网站对于selenium的识别也越来越厉害。无意间,本人接触到了DrissionPage,忍不住要向大家安利一下,个人感觉比selenium方便很多,因为不需要不断地下载然后更新驱动,不需要繁琐的操作,DrissionPage把例如执行JS代码的方法封装好了,调用起来真的方便。开始正题,新建一个临时py文件,并输入以下代码,填入您电脑里的Chrome浏览器可执行文件路径,然后运行。原创 2024-12-23 13:32:41 · 227 阅读 · 0 评论 -
python实战项目52:Selenium爬取steam黑神话悟空评论
Selenium爬取steam游戏评论的思路非常简单,初始化Chromedriver,然后打开评论页面,循环下拉滚动条,每下拉一次滚动条获取一次页面源代码,使用xpath解析数据并保存数据。本文的主要目的是为大家提供完整可执行的代码,以此帮助需要的人尽快获取到数据,降低时间成本。原创 2024-11-03 23:53:50 · 1375 阅读 · 0 评论 -
python实战项目51:selenium结合requests获取某众点评评论
寻找数据接口,发送请求、获取数据、解析数据、保存数据,这是python爬虫的基本步骤,这里就不再做详细展示,重点是使用requests携带上一步中获取到的cookies。首先,初始化selenium的webdriver,然后使用webdriver打开某众点评主页,之后手动扫码登录,利用selenium的get_cookies()方法获取cookies。某众点评的cookies只能用于发送50次请求,之后便会过期,过期之后就需要重新登录,程序中解决了这个问题,但需要准备两个账号以进行切换登录。原创 2024-11-01 19:48:21 · 531 阅读 · 0 评论 -
使用mysql数据库创建数据库和表
【代码】使用mysql数据库创建数据库和表。原创 2024-11-01 11:10:17 · 192 阅读 · 0 评论 -
flask框架用法介绍(二):Flask和forms
如果需要使用flask做一个大一点的项目,项目的目录则显得尤为重要,便于进行功能的扩展。原创 2024-11-01 10:15:15 · 504 阅读 · 0 评论 -
flask框架用法介绍(一)
【代码】flask框架用法介绍(一)原创 2024-10-31 22:22:00 · 126 阅读 · 0 评论 -
python实战项目50:js逆向某蜂窝评论
在控制台下方输入代码Function.prototype.constructor = function(){}并执行,然后点击跳过断点即可。然后截取32位md5加密后的值中下标为[2, 12]的值,便是_sn。首先,添加一个xhr断点。原创 2024-10-29 21:25:21 · 517 阅读 · 0 评论 -
python实战项目49:足彩开奖竞猜数据抓取
其中,clientCode为固定值,matchId可以在上一步中获取的响应中得到。由于获取到的是json数据,直接使用python中字典的获取数据的方法即可。打开开发者工具,刷新页面,找到数据接口为xhr数据包。原创 2024-10-29 16:49:44 · 503 阅读 · 0 评论 -
js逆向--在VM文件中反复出现debugger如何绕过
在控制台下方输入代码。原创 2024-10-28 19:48:27 · 460 阅读 · 0 评论 -
python实战项目48:实某僧字体反爬
图中url的内容加上网站前缀“https://www.shixiseng.com/”,在地址栏中输入之后可以下载字体文件。为网页指定字体,开发者可将心仪的字体文件放在web服务器上,并在css样式中使用它。这里使用的是fontTools库,加载字体文件之后使用对应的方法获取到unicode编码,然后将unicode编码转换为16进制字符串,最后进行相应的替换。字体加密就是利用前端技术干扰,但是页面可以正常展示数据,而使用爬虫获取后无法提取正常的数据。目前的技术开发者可以使用。原创 2024-10-25 21:59:05 · 117 阅读 · 0 评论 -
python实战项目47:Selenium采集百度股市通数据
这里以获取百度股市通股评下的投票数据为例,页面中的其他数据同理。思路很简单,通过Selenium打开页面,然后定位到“股评”选项卡,再模拟点击“今日”或者“本周”“本月”“今年”,接下来获取页面源代码,再使用xpath解析页面数据。但需要注意的是,使用Selenium打开的页面过多的话,会遇到cookie反爬。这里重点解决的是,在每次打开页面操作之前和之后,需要使用Selenium的delete_all_cookies()方法删除cookie,这样便可以绕过cookie反爬,亲测有效。原创 2024-10-24 18:26:48 · 980 阅读 · 0 评论 -
pycharm导出环境安装包列表
【代码】pycharm导出环境安装包列表。原创 2024-10-24 16:46:11 · 482 阅读 · 0 评论 -
python实战项目46:selenium爬取百度新闻
思路是首先使用selenium打开百度新闻页面,然后实现翻页操作,获取每条新闻的标题和链接。接下来的问题是,在遍历标题和链接,对每一个链接发送请求时,发现会弹出百度安全验证,本文的思路是使用selenium处理安全验证问题。虽然速度相对较慢,但是获取的数据是完整的,实测可用。原创 2024-10-22 19:14:10 · 797 阅读 · 0 评论 -
python实战项目45:采集百度资讯
接下来,使用requests库发送请求,发送请求时注意携带cookie、referer、user-agent等参数。这里使用BeautifulSoup库解析提取数据,具体使用方法这里不再赘述。原创 2024-10-22 17:47:21 · 180 阅读 · 0 评论 -
python实战项目44:某眼电影字体反爬
下载完字体文件之后,只要将其中的字符编码和数字对应的信息提取出来,再把网页源码中的字符编码替换掉,就能得到我们想要的数据了。这里要用到一个三方库fontTools,利用fontTools可以获取每一个字符对象,这个对象你可以简单的理解为保存着这个字符的形状信息,而且编码可以作为这个对象的id,具有一一对应的关系。最后再使用PIL库和ddddocr图片识别库对图像进行识别,提取出字符编码和数字的对应关系,保存为一个字典,这样就实现了字符编码和真实数字的映射。原创 2024-10-20 17:35:16 · 210 阅读 · 0 评论 -
python实战项目43:采集汽车之家数据
打开浏览器开发者工具,刷新页面,找到数据接口。接下来,通过翻页寻找接口url的变化规律,发现接口的url在页码发生变化时,最后一个1发生了变化,其他不变,这样方便我们接下来构造url进行翻页。接下来,使用requests库向该接口发送get请求,携带user-agent,referer等参数。这里使用xpath表达式进行数据解析和提取,使用csv库进行数据存储。原创 2024-10-18 22:42:37 · 600 阅读 · 0 评论 -
python实战项目42:themoviedb电影网站信息
可以观察到,详情页的url在上一步的响应中,这里使用BeautifulSoup库对响应数据进行解析,提取出全部的详情页url,但要注意的是,详情页的完整url需要进行拼接,加上前缀“https://www.themoviedb.org/”。详情页信息的获取方式和第一步一致,首先要找到数据接口,然后发送请求,获取响应,最后使用BeautifulSoup库解析数据。寻找到数据接口,如下图所示,请求方式为POST,请求所携带的相关信息在标头和载荷中均可以查看。打开网站首页,F12打开开发者工具,刷新页面。原创 2024-10-18 17:58:00 · 327 阅读 · 0 评论 -
python实战项目41:采集某东评论
【代码】python爬虫采集某东评论。原创 2024-10-13 13:28:00 · 435 阅读 · 0 评论 -
python实战项目40--采集番茄小说网小说
数据提取使用的是python的第三方库parsel。找到数据接口,为网页文件。原创 2024-10-11 17:49:51 · 4628 阅读 · 0 评论 -
python实战项目39--某动漫信息采集
如上图所示,使用xpath提取详情页的标题、作者、评分、人气、评论人数等数据。使用xpath提取详情页url。打开开发者工具,找到数据接口。原创 2024-10-10 17:10:57 · 943 阅读 · 0 评论 -
js逆向--某招标公告公示搜索引擎
试图通过按F12或者右键打开开发者工具,发现均没有反应。这时需要点击浏览器右上角的三个点,然后点击更多工具–开发者工具,通过这种方式打开开发者工具。接下来,刷新页面或者点击下一页进行抓包,找到数据接口,但发现响应数据被加密。单步点击上图中的图标(继续执行脚本),直到控制台中展示出明文,这时说明已经解密完成。打开网页,在搜索框中输入关键词python。点击下一页,发现断点断住了。通过调用堆栈找到解密入口。原创 2024-10-07 11:38:09 · 624 阅读 · 0 评论 -
js逆向--npm包管理工具切换国内镜像源
如何查看目前的源呢?如何切换回官方源呢?原创 2024-09-26 09:50:50 · 379 阅读 · 0 评论 -
python实战项目38:js逆向--某建筑市场公共监管服务平台
点击上图中的图标进入b方法,找到加密入口。打开源代码/来源界面,下一个XHR断点。很容易找到数据接口,发现响应加密了。发现到下图中的位置时,明文出现了。点击翻页,发现代码断住了。原创 2024-09-25 11:22:22 · 170 阅读 · 0 评论 -
python实战项目37:js逆向--cai招网
keywords=%E5%85%AC%E5%85%B1%E4%BD%8F%E5%AE%85,打开开发者工具进行抓包。将data作为参数传入AESDecrypt函数,打印。发现报错,变量variate未定义。回到开发者工具控制台,执行variate,将结果复制到js文件中,再执行发现得到正确结果。新建caizhao.js文件,将解密函数复制到js文件中,首先将函数稍作修改,函数名为AESDecrypt。在控制台打印JSON.parse,发现是解密后的数据,加密入口找到。分别下断点,刷新网页,发现断住了。原创 2024-09-06 17:59:37 · 1842 阅读 · 0 评论