Python爬虫Selenium手动接管Edge爬取裁判文书网“环境污染”数据(Mac环境)

文章介绍了如何利用Selenium自动化工具,结合Edge浏览器和XPath定位,爬取裁判文书网从2007年至2022年关于环境污染的中级法院裁判文书数量。关键步骤包括设置Edge浏览器远程调试,登录裁判文书网,动态加载地级市数据,并通过删除特定XPath元素来正确定位省份和地级市中级法院的数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目标数据:爬取从2007年到2022年,各地级市中级法院历年关于“环境污染”的裁判文书数量。

由于裁判文书网需要登录,Selenium手动接管爬取可避免频繁登录造成的封号风险。

Selenium如何手动接管Edge浏览器:

1、打开终端,将命令 /Applications/Microsoft\ Edge.app/Contents/MacOS/Microsoft\ Edge --remote-debugging-port=9222 --user-data-dir="/Users/libraf/Documents/Edge"复制到终端里然后enter,其中:

/Applications/Microsoft\ Edge.app/Contents/MacOS/Microsoft\ Edge 表示Edge浏览器驱动路径(Edge浏览器驱动是selenium爬虫所必要的);

--remote-debugging-port=9222 表示一个空闲端口,通常照抄即可;

--user-data-dir="/Users/libraf/Documents/Edge" 表示浏览器配置文件存放路径,防止污染原本的Edge浏览器配置,"/Users/libraf/Documents/Edge" 为一个存在的任意路径即可。

2、打开裁判文书网(https://wenshu.court.gov.cn),登录完成并设定好相关筛选条件后,再用以下代码使selenium接管浏览器。

options = Options()
options.add_experimental_option("debuggerAddress", "127.0.0.1:9222
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值