网络爬虫之用户名密码及验证码登陆：爬取知乎网站

原创

于 2022-01-05 20:01:54 发布 · 5.5k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #python #json

本文介绍如何使用Python爬虫爬取知乎网站，通过requests包进行登录操作。首先，尝试使用配置文件中的用户名和密码自动登录，若失败则依赖cookie。文章详细讲解了登录过程，并提示登录成功标志是生成的HTML文件包含用户信息。

前言

今天来教大家如何爬取知乎网站，最近到底有哪些有意思的事情发生呢？

不过爬取网站首先会面临的问题，当然是登陆了。

准备

使用requests包来爬取。首先尝试用用户名密码自动登陆，如果失败，则需要采用cookie登陆。
配置文件config.ini，其中包括用户名密码信息，如果有验证码情况，需要手动登陆一次网站获取cookie信息。
判断登陆成功与否，看生成的html文件中有没有用户信息。

代码实现

# -*- coding: utf-8 -*-

import requests
import ConfigParser

def create_session():
    cf = ConfigParser.ConfigParser()
    cf.read('config.ini')
    cookies = cf.items('cookies')
    cookies = dict(cookies)
    from pprint import pprint
    pprint(cookies)
    email = cf.get('info', 'email')
    password = cf.get('info', 'password')

    session = requests.session()
    login_data = {'email': email, 'password': password}
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko