目标数据:爬取从2007年到2022年,各地级市中级法院历年关于“环境污染”的裁判文书数量。
由于裁判文书网需要登录,Selenium手动接管爬取可避免频繁登录造成的封号风险。
Selenium如何手动接管Edge浏览器:
1、打开终端,将命令 /Applications/Microsoft\ Edge.app/Contents/MacOS/Microsoft\ Edge --remote-debugging-port=9222 --user-data-dir="/Users/libraf/Documents/Edge"复制到终端里然后enter,其中:
/Applications/Microsoft\ Edge.app/Contents/MacOS/Microsoft\ Edge 表示Edge浏览器驱动路径(Edge浏览器驱动是selenium爬虫所必要的);
--remote-debugging-port=9222 表示一个空闲端口,通常照抄即可;
--user-data-dir="/Users/libraf/Documents/Edge" 表示浏览器配置文件存放路径,防止污染原本的Edge浏览器配置,"/Users/libraf/Documents/Edge" 为一个存在的任意路径即可。
2、打开裁判文书网(https://wenshu.court.gov.cn),登录完成并设定好相关筛选条件后,再用以下代码使selenium接管浏览器。
options = Options()
options.add_experimental_option("debuggerAddress", "127.0.0.1:9222