- 博客(7)
- 收藏
- 关注
原创 Python 自动化库Playwright 和Selenium 的差异
如果需要爬取网页动态生成的资料,那python 的request 模组是不足够的,一定需要使用能够模拟浏览器行为或自动化调用浏览器的程式库先能实现。它支援的编程语音广泛,就算不是使用python 的大家也一定会听过或做同类型的工作时有使用它。但近年来,有一个由微软开发,命为playwright 的网页抓取程序库越越来被大部分的开发者采用,以上就是这个程式库之间的主要差异,大家可以在考虑使用哪一款程式库前先对比一下,再决定如何使用❗️❗️。预设不是headless 模式(会弹出开启中的浏览器)
2024-12-22 22:19:54
371
原创 灵活使用Python把json 转换为dataframe
那转化过程必然需要编写代码,当面对不同栏位的json array 时,能否灵活地转化数据格式,又不用修改代码呢🤔 以下是我使用Python的做法,转化过程我会使用一个叫tablib 的程序库。然后编写代码,代码根据设定档的定义读取json 档案的资料,然后再根据设定档的定义再去构建dataframe。使用设定档的原因是将来转化的数据结构改变时,只需要依据设定档的定义就能转化,不需要修改代码。首先,先定义一个用作设定转化栏位的设定档,我是使用json 格式的设定档。
2024-12-12 23:14:55
349
原创 Python 秒爬微博热搜
第2️⃣种方式更高效抓取热搜数据,抓取数据的核心思维是先观察数据传输或搜寻文档,看看有没有合适的數據接口,有的话便用数据接口,没有的话先再编写爬虫。➡️需要伪装请求头(header),在请求头中值入Cookie,否则你发的请求过不了验证,返会空页面,程式运行后爬. 了个寂寞。这种方式需要编写解释html 结构的代码, 因为你的抓取的都是html 页面,不是数据。➡️爬虫代码会和网页的代码结构捆绑,人家的 介面修改优化,你的代码也要修改。這是直接请求数据,微博有开放热搜的数据接口,只要编写几句代码。
2024-12-11 23:01:04
599
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人