之前就用requests包爬的,但爬的过程中出现了一些错误,导致我以为爬的太多ip被禁了,后来就想了其它的方法,用到了Selenium包。程序写出来之后发现还是有错误,后来排查发现是碰到了网页链接失效导致的问题。
不过Selenium爬虫是真的慢,但是感觉比requests包爬的要安心一点。下面就总结一下我最近学习的Selenium。
-
Selenium讲解、安装以及Chrome浏览器配置,可结合下面两个链接参考
python爬虫之selenium的使用
selenium 安装与 chromedriver安装
下载chromedriver.exe之后,我就将其放在python.exe同一个安装目录下就可以了,没有像上面说的这么麻烦要放在Chrome浏览器里再去配置path环境。 -
先搞个小栗子,模拟打开浏览器,输入内容、点击等。
import time
from selenium import webdriver
driver = webdriver.Chrome