缺点:还是没能攻破验证码识别,验证码是刷新一次验证码就会变化一次,实在是没有这个能力攻破
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
import json
import csv
# 声明一个谷歌浏览器的驱动器
browser = webdriver.Chrome()
# url网址
url = 'https://weixin.sogou.com/'
# 请求该网址
browser.get(url)
# 声明一个列表存储字典
data_list = []
def start_spiders():
# 找到输入框id
query = browser.find_element_by_id('query')
query.send_keys('python爬虫')
# 找到搜索按钮
swz = browser.find_element_by_class_name('swz')
swz.click()
# 找到登陆按钮并点击
top_login = browser.find_element_by_id('top_login')
top_login.click()
# 显示等待是否登陆成功
WebDriverWait(browser, 1000).until(
EC.presence_of_all_elements_located(
(By.CLASS_NAME, 'yh')
)
)
print('登陆成功')
while True:
# 找到所有的li标签
lis = browser.find_elements_by_xpath('//ul[@class="news-list"]/li')