python爬虫 selenium实践+pyinstaller打包exe

原创已于 2022-12-30 22:35:57 修改 · 1.4k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #selenium

于 2022-08-16 17:25:06 首次发布

python应用专栏收录该内容

2 篇文章

订阅专栏

本文介绍了在爬取需要JavaScript渲染的网站时，如何利用Selenium自动化工具代替requests库。首先，通过ChromeService和ChromeDriverManager安装并配置合适的Chrome驱动，然后实例化浏览器对象并加载页面。在等待页面加载后，可以进行进一步的网页操作。此外，还解决了在Python 3.9环境下pyinstaller打包exe文件无法在Win7运行的问题。解决办法是创建Python 3.8的虚拟环境，手动安装pyinstaller和selenium等依赖，确保打包的版本与目标系统兼容。

1、selenium

之所以不用平常的request，是因为要爬的网站需要执行JavaScript脚本，不是正常的html。

 service = ChromeService(executable_path=ChromeDriverManager().install())
    driver = webdriver.Chrome(service=service)
    # 实例化1个谷歌浏览器对象
    driver.get('网址')
    time.sleep(3)

先根据浏览器版本自动安装驱动，之后实例化google浏览器对象，进行网址get。

记得sleep几秒，因为get需要时间。

2、pyinstaller

我的python3.9好像有点问题，所以在pip install pyinstaller的时候，反复出现can't find egg info

最后靠手动下载库，并且根据信息自己补全相关的库成功下载。

由于是用python3.9 setup , 所以pyinstaller的python版本也是3.9。

打包成dist中的exe文件后，去win7电脑，发现用不了，原因是python3.9打包的win7识别不了。

首先要补全缺失的DLL文件。还是不行。

上网找了策略，python降级？不知道怎么想的。其实很简单，只要确保pyinstaller的版本是3.9之前的就行，所以下载了anaconda，在prompt里面搭建了python3.8的虚拟环境，一定要手动install pyinstaller和selenium等库（没办法，必须手动，命令行，否则还是原本python3.9下的pyinstaller），然后再

pyinstaller -F xxx.py 即可。