
Web
文章平均质量分 74
Code_LT
以斗争求团结则团结成
公司网络限制,无法进行私信沟通
展开
-
【爬虫】PlayWright使用说明
持续更新中。原创 2024-09-24 21:32:25 · 2077 阅读 · 0 评论 -
【PlayWright】Playwright Inspector使用
Playwright Inspector是Playwright框架中自带的GUI工具,可以辅助开发者调试Playwright脚本。原创 2024-09-23 15:22:33 · 1854 阅读 · 0 评论 -
css 选择器 选择数字开头或特殊字符开头的class和id
问题背景:HTML5之前,class和id的命名是不支持以数字开头的,但从HTML5开始就支持了。然而css中有效的类名需要满足以下条件:有效名称应以下划线 (_)、连字符 (-) 或字母 (a-z)/(A-Z) 开头,后跟任何数字、连字符、下划线、字母。 不能以数字开头 名称的长度至少应为两个字符 不能以两个连字符或连字符后跟数字开头解决办法:假设我们要选择:<a class='3-d'>css提供了一种叫做规避(escape)的写法,可以实现数字开头命名的原创 2021-09-19 21:58:55 · 4322 阅读 · 0 评论 -
【PlayWright教程(四)】使用避坑(python)
1. 使用css选择器,指定特定属性时,buneng 直接采用浏览器中的形式:ele.query_selector("[attr=value]")会报错:playwright._impl._api_types.Error: Evaluation failed: SyntaxError: The string did not match the expected pattern.应该使用:ele.query_selector("[attr='value']")如:ele.qu.原创 2021-09-19 16:03:30 · 6460 阅读 · 0 评论 -
【PlayWright教程(三)】基础操作汇总
页面基本操作按照官网文档,调用 page.goto(url) 后页面加载过程:设定 url 通过网络加载解析页面 触发 page.on("domcontentloaded") 事件 执行页面的 js 脚本,加载静态资源 触发 page.on("laod") 事件 页面执行动态加载的脚本 当 500ms 都没有新的网络请求的时候,触发 networkidle 事件page.goto(url)会跳转到一个新的链接。默认情况下 Playwright 会等待到 load 状态。如果我们不关心.转载 2021-09-15 11:21:37 · 28797 阅读 · 10 评论 -
【PlayWright教程(二)】核心概念
PlayWright的核心概念包括:Browser Browser contexts Pages and frames Selectors Auto-waiting Execution contexts: Playwright and Browser Evaluation Argument1. Browser一个Browser是一个Chromium, Firefox 或WebKit(plarywright支持的三种浏览器)的实例plarywright脚本通常以启动浏览器实例开始,以关.翻译 2021-09-14 18:06:18 · 5282 阅读 · 0 评论 -
【PlayWright教程(一)】安装和使用(python)
当今常用的三个常用的浏览器驱动:库 Selenium Puppeteer Playwright JavaScript 支持 官方支持 官方支持 官方支持 Python 异步支持 无 第三方,而且 bug 不少 官方支持 Python 同步支持 官方支持 无 官方支持 维护者 社区 Google 微软 可操作性浏览器 Chrome/Firefox/Safari/Edge Chrome/原创 2021-09-11 16:51:55 · 23535 阅读 · 7 评论 -
爬虫最新进展,动态网页爬取
通常,爬取网站,最简单的就是静态网页,一般 python的request+beautifulsoup就可以搞定。困难的是动态网页的爬取。动态网页爬取一般有以下几种方法:1. 逆向回溯(即一层层找接口,或底层链接,想稳定快速爬取,可考虑这个,相当费时费力)2. 渲染动态网页法(使用PySide或ghost.py,但是由于太过久远已经被时代淘汰了,所以这种方法并不优雅)3. 模拟浏览器法(如使用Selenium等,见下)当今常用的三个常用的浏览器驱动:库 Sele.原创 2021-09-11 09:48:25 · 1053 阅读 · 0 评论 -
Beautiful Soap 使用注意事项
最全文档:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#id141. 注意html有些tag的属性是具有多值的(但凡在某个html历史版本中,被定义成为过多值属性),多值属性取用时,会以list返回。 但如果转换的文档是XML格式,那么tag中不包含多值属性勘误:官方文档在讲解Tag属性时,最开始的class属性全为字符串,是不对的。>>> from bs4 import BeautifulSoup>>.原创 2021-01-27 15:08:49 · 410 阅读 · 0 评论 -
浏览器响应码总结
响应码分类:1xx• 响应码规范:RFC6585 (2012.4)、RFC7231 (2014.6)• 1xx:请求已接收到,需要进一步处理才能完成,HTTP1.0 不支持 • 100 Continue:上传大文件前使用 • 由客户端发起请求中携带 Expect: 100-continue 头部触发 • 101 Switch Protocols:协议升级使用 • 由客户端发起请求中携带 Upgrade: 头部触发,如升级 websocket 或者 http/...原创 2021-01-24 00:29:27 · 444 阅读 · 0 评论