- 博客(26)
- 收藏
- 关注
原创 爬虫简单实操2——以贴吧为例爬取“某吧”前10页的网页代码
本文介绍了一个简单的贴吧爬虫框架实现。该爬虫主要包含以下功能: 初始化组件:设置贴吧名称、基础URL和请求头 URL构造:通过列表推导式生成指定页数的贴吧URL 请求获取:使用requests获取网页HTML源码 本地保存:将获取的HTML按页数保存为本地文件 核心代码使用面向对象方式组织,包含TiebaSpider类,通过run()方法串联整个爬取流程。该爬虫可实现指定贴吧前10页内容的抓取,每页数据保存为单独HTML文件,文件名包含贴吧名称和页数信息。代码简洁高效,使用了列表推导式和format字符串格
2025-06-26 22:11:53
106
原创 爬虫:一定要知道的requests整体架构
本文展示了一个简单的爬虫程序框架。代码定义了一个XXSpider类,包含初始化方法和核心业务逻辑方法run()。程序通过requests模块实现爬虫功能,并采用if name == 'main'的标准Python执行方式启动爬虫实例。该代码结构清晰,可作为爬虫开发的基础模板,适合初学者学习基本的爬虫编程框架。
2025-06-26 17:03:23
68
原创 爬虫:3.掌握requests库
Python requests库使用指南 requests库是Python中最常用的HTTP请求库,可用于发送网络请求和获取响应数据。文章介绍了requests的基本用法,包括发送GET请求、处理编码问题(response.text与response.content的区别)、获取状态码和请求头信息。重点讲解了如何伪装请求头(User-Agent)和发送带参数的请求(params),并以爬取豆瓣电影搜索为例进行了演示。此外,还展示了如何保存图片到本地。文章提醒要遵守robots协议,避免暴力爬取,并给出了一个
2025-06-26 16:27:23
351
原创 爬虫:1.HTTP协议
通过cookie将客户端的用户访问足迹发送给服务器,下次服务器就可以推送类似的东西给你,所以记得定时清理浏览器缓存,毕竟cookie不够安全,存在客户端上。模拟登录时候,可能会用到host、user-agent、cookie,比如有些要爬的页面是要登录之后才能访问到的,直接爬爬不到,要带上登录信息。Server: BWS/1.1 (百度自己的服务器,一般服务器用阿帕奇Apache或恩吉尼克斯Nginx)user-agent是访问的电脑类型,浏览器类型版本(服务器可以判断是不是爬虫)post——表单提交;
2025-06-25 18:44:50
409
原创 记录一下自动化和爬虫现在的主流技术
通过 Browser 类,可以启动一个浏览器实例,模拟用户在浏览器中的操作,如访问网页、填写表单、点击按钮等。Playwright:由Microsoft开发,支持多浏览器,自动化操作高效,支持无头模式2。Selenium:广泛用于Web自动化测试,能够模拟用户在浏览器中的操作,支持多种浏览器1。Scrapy:一个功能强大的爬虫框架,支持异步和分布式爬取,适合大型、复杂的爬虫项目12。Requests:用于发送HTTP请求,简单易用,是爬虫获取网页内容的基础库14。中的 Browser 类,它提供了一个。
2025-06-12 17:24:55
254
原创 爬虫简单实操1——爬取一张豆瓣图片
本文详细介绍了网络爬虫请求与响应的原理及实际操作。首先解析了请求的三要素:请求行(含URL和方法)、请求头(关键headers数据)和请求体(参数);接着说明响应包含状态行、响应头和响应体。通过豆瓣电影案例,演示了如何使用requests库进行抓包分析、UA伪装解决反爬机制(418状态码转为200),以及图片爬取保存的具体实现。代码示例包括获取网页源码、处理二进制图片数据并本地存储的完整流程,为爬虫初学者提供了清晰的技术指导。
2025-06-12 17:17:28
897
原创 爬虫:2.web请求响应的过程(概念为主)
我们的电脑请求别人的电脑后,别人的电脑给了我们一个框架,我们再请求数据,得到数据和框架后,我们在自己的电脑上组装渲染好了呈现出来。我们的电脑请求别人的电脑,然后别人的电脑上组装好数据再发送给我们,呈现在我们的电脑上(秒显示)找到了,这个在本地渲染出来的数据(这类数据会在打开网址后缓慢显示出来,因为需要时间加载)点击Fetch/XHR,刷新一下,就能看到一些网址,从这里面找寻第二次请求得到的网址。查找经过第二次请求的数据:后台抓包 F12 - Network(网络)怎么看请求的是哪一个网址,看它的【标头】
2025-06-12 15:50:16
275
原创 什么是爬虫?
简单来说,爬虫是模拟人去网络上获取数据的一个程序。自动化操作,无需人去手工操作,比如下载文件。爬取资源,如视频,音频,文件等。精确快速获取网页数据。
2025-06-11 13:19:20
728
原创 爬虫selenium库基础操作
和xpath同样操作,使用时将 find_element_by_xpath 换成 find_element_by_css_selector 即可。安装chrome浏览器和配置好chromedriver,对应版本查询(win+R,cmd,chromedriver)在网页用F12,点小箭头找你要的元素,复制这个元素的xpath(就不用自己去找结构层级去写了),所以最好休息3秒钟再进行其他操作,如果是request直接访问某网页,则通常不需要等待。想在输入框里面输入内容,用.send_keys()
2025-06-09 20:50:46
270
原创 weditor安装
2、不是pip问题,可能是版本不兼容,可以更新weditor版本或者是降低weditor版本。在pycharm终端里面写入安装weditor。1、pip版本不够,更新。
2024-06-24 20:54:49
1044
原创 uiautomator2-功能使用
注意初始化要完成,安装时候报错了:说没有权限,权限被拒绝1.权限考虑文件是否有权限,不只读,安全里要是完全控制2.USB调试开发者模式里面要开启USB调试3.是否打开文件夹。
2024-06-24 20:42:11
655
转载 uiautomator2-adb报错CreateProcessW failed: 系统找不到指定的文件
将C:\Windows\System32 下的adb.exe 复制到C:\Windows\SysWOW64。然后adb devices可以了,但是还是提示tcp:5037 ,我想可能是端口问题就直接。adb: CreateProcessW failed: 系统找不到指定的文件。我把它们三个文件都复制过去了。
2024-06-24 19:06:48
416
原创 uiautomator2-快速入门app自动化测试-从配置环境到测试
点击获取SDK安装链接,电脑什么系统就安装对应的tools配置环境变量:环境变量–系统变量(下面那个,别点成用户变量了)–Path-- 写入你的adb 的位置,注意分号检查adb是否可以使用,在cmd里面输入adb 回车 【记得配置好之后重新打开cmd查询】有一点要强调,目前如果只用电脑上的模拟机,则配置ATX环境只需要在Pycharm里面安装好atx、uiautomator2,再运行代码就可以,就方法二图片,运行代码之后模拟机就自动安装ATX了。如果是需要使用真机,初始化一定要做对,要在被测机上
2024-06-15 17:01:16
560
原创 uiautomator2——开发者模式配置 / 想用手机WiFi地址连接设备,但是报错:raise ConnectError(f“device {self._serial} not online“)
uiautomator2 解决想要使用真机wifi连接设备但一直报错设备不在线的问题
2024-06-15 16:10:35
1639
原创 python打包的exe在自己电脑上可以正常运行,发给对方结果闪退或报错该如何解决
python打包的exe在自己电脑上可以正常运行,发给对方结果闪退或报错该如何解决
2022-11-29 18:43:34
2673
3
原创 当你测试if语句发现两个字符串明明内容一样却无法用==
当我们发现if语句中两个字符串明明内容一样却无法用==来返回true我们就需要考虑这两个字符串的对象是不是不同。最简单的方法就是避免使用双=号,而是使用username.equals(name)
2022-03-28 04:10:44
559
原创 实例操作:购物网站首页、登录及注销的实现(JSP+JDBC)
MySQL创建一个数据库,创建三张表,并插入数据表goods(商品表):MySQL在较新的版本里,int后面是不需要加()定义长度的DROP TABLE IF EXISTS `goods`;CREATE TABLE `goods` ( `goodsid` int NOT NULL AUTO_INCREMENT, `goodsname` varchar(50) NOT NULL, `goodsnote` varchar(255) DEFAULT NULL, `goodsprice`
2020-11-14 16:24:05
268
原创 实例操作:用户登录程序实现(JSP+JDBC实现)
创建数据库表1.DOS命令,登录MySQL数据库2.创建一个数据库users3。查看一下数据库是否创建成功4.使用users数据库,数据库就会切换成users,否则接下来的操作会报错5.在数据库中创建一个表user,定义列的字段属性约束6.在表user里插入一行数据(之后可以用来检测JDBC和MySQL是否连接上了,登录验证页面是否能跳转成功)7.查看user表的数据,看刚刚的数据是否录入表内程序实现思路(相关页面阐述)login.jsp:提供用户的登录表单,可以输入用户
2020-11-07 19:18:11
3138
原创 eclipse新建项目后java build path的libraries下add libraries按钮是灰色(全部灰色)
遇到的问题:按钮全部显灰解决方法:鼠标点击Modulepath或者Classpath即可显示
2020-11-07 13:19:53
5735
4
转载 使用eclipse创建我的第一个JSP项目
一.eclipse集成tomcat服务器将服务器添加至eclipse中,操作步骤:1.点击window-preferences-add2.选择对应版本的tomcat,点击next3.将tomcat解压安装目录填进指示框,点击finish4.寻找消失的servers窗口,并配置好:如果你发现没有servers窗口,那么说明你还没配置过servers,接下来的操作可以让它显示出来。点击window—show view—other找到server—servers,点击open现在s
2020-11-07 13:10:09
6282
2
转载 DOS命令(系统错误5,拒绝访问)的解决方法
在用DOS命令启动MySQL服务时,出现(系统错误5,拒绝访问)的错误提示,这是由于我们操作的权限不足造成的,需要以管理员身份启动,如下图所示:解决问题方法如下:1.“Windows+S”–>输入"cmd"–>“命令提示符”右键以管理员方式运行2.长久之计:“Windows+S”–>输入"cmd"–>“命令提示符”右键–>打开文件所在位置–>“命令提示符”右键–>“属性”快捷方式–>高级勾选“以管理员方式运行”–>确定最后输入net
2020-11-04 19:15:46
4574
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人