python 爬虫利用webdriver 跳过登陆进行小规模抓取信息

最新推荐文章于 2025-05-28 23:15:02 发布

原创最新推荐文章于 2025-05-28 23:15:02 发布 · 1.7k 阅读

5 ·

CC 4.0 BY-SA版权

爬虫专栏收录该内容

4 篇文章

订阅专栏

下载webdriver 驱动包，（windows 下）我一般用的是谷歌的驱动chromedriver.exe，最好是放在指定的一个路径然后把路径放进环境变量的path中，当然有很多情况出现BUG不能测试，暴力的办法就是直接放在python3.5的路径下，就OK了，

然后python代码

import time
import requests
from selenium import webdriver
from bs4 import BeautifulSoup 
driver = webdriver.Chrome() #
driver.get('https://passport.ganji.com/login.php?next=/');#进入这个登陆网站
element =  driver.find_element_by_name("login_username")#获取账号栏的标签
element.send_keys("1820918313")#给账号栏里输出账号
element =  driver.find_element_by_name("login_password")
element.send_keys("******")# 输入密码
element = driver.find_element_by_class_name("submit").click() #点击下面的登陆按钮
          
time.sleep(5)
driver.get('http://xa.ganji.com/qzbianjijizhe/')# 进入这个登陆页面之后 就可以向需要登陆的页面重新发送请求  就不需要登陆
r = requests.get('http://xa.ganji.com/qzbianjijizhe/')  # 接下来就可以利用各种 抓取包 进行标签抓取了
content = r.text
print(content)