使用selenium爬取搜狗微信文章

缺点:还是没能攻破验证码识别,验证码是刷新一次验证码就会变化一次,实在是没有这个能力攻破

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
import json
import csv


# 声明一个谷歌浏览器的驱动器
browser = webdriver.Chrome()
# url网址
url = 'https://weixin.sogou.com/'
# 请求该网址
browser.get(url)

# 声明一个列表存储字典
data_list = []


def start_spiders():
    # 找到输入框id
    query = browser.find_element_by_id('query')
    query.send_keys('python爬虫')
    # 找到搜索按钮
    swz = browser.find_element_by_class_name('swz')
    swz.click()
    # 找到登陆按钮并点击
    top_login = browser.find_element_by_id('top_login')
    top_login.click()
    # 显示等待是否登陆成功
    WebDriverWait(browser, 1000).until(
        EC.presence_of_all_elements_located(
            (By.CLASS_NAME, 'yh')
        )
    )
    print('登陆成功')

    while True:
        # 找到所有的li标签
        lis = browser.find_elements_by_xpath('//ul[@class="news-list"]/li')
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值