Linux环境下运行Python程序,使用Selenium采集数据

部署运行你感兴趣的模型镜像

1、安装python、pip及程序用到的包

2、安装Chrome浏览器

参考连接:Linux服务器安装谷歌浏览器_谷歌浏览器linux版本-优快云博客

3、安装Chromedriver,要与第二步安装的Chrome浏览器版本对应

chromedriver浏览器驱动各版本下载(...113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133)(原创) - Z哎呀 - 博客园

Chromedriver 下载地址—70.0.3538.16-131.0.6778.85(持续更新中)_chromedriver 131.0.6778.86-优快云博客

4、开放对应端口

问题与解决:

1、WebDriver.__init__() got multiple values for argument 'options'

从Selenium 4.10.0版本开始,这个方法的参数发生了重要变化。主要的变化是,第一个参数不再是executable_path,而是options或service

from selenium.webdriver.chrome.service import Service
service = Service(executable_path=r'/www/wwwroot/python/football/chromedriver')
driver = webdriver.Chrome(service=service, options=chromeOptions)

2、加上不打开浏览器设置后,获取网页内容,提示无法访问

反向爬虫限制‌:一些网站可能会检测并阻止无头浏览器的访问,认为它们是自动化脚本。这可以通过修改Chrome选项来绕过,比如设置用户代理(user-agent)来模拟正常用户的访问

    user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36"
    chromeOptions.add_argument(f'user-agent={user_agent}') 

3、linux服务器,不是只安装ChromeDriver,还要安装Chrome浏览器,两个版本要一致

4、服务器上要放行端口,特别是云服务器,需要在策略或者防火墙里放行对应端口。

chromeOptions.add_argument('--remote-debugging-port=9222')

您可能感兴趣的与本文相关的镜像

Python3.11

Python3.11

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值