前言
今天来教大家如何爬取知乎网站,最近到底有哪些有意思的事情发生呢?
不过爬取网站首先会面临的问题,当然是登陆了。
准备
-
使用requests包来爬取。首先尝试用用户名密码自动登陆,如果失败,则需要采用cookie登陆。
-
配置文件config.ini,其中包括用户名密码信息,如果有验证码情况,需要手动登陆一次网站获取cookie信息。
-
判断登陆成功与否,看生成的html文件中有没有用户信息。
代码实现
# -*- coding: utf-8 -*-
import requests
import ConfigParser
def create_session():
cf = ConfigParser.ConfigParser()
cf.read('config.ini')
cookies = cf.items('cookies')
cookies = dict(cookies)
from pprint import pprint
pprint(cookies)
email = cf.get('info', 'email')
password = cf.get('info', 'password')
session = requests.session()
login_data = {'email': email, 'password': password}
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko

本文介绍如何使用Python爬虫爬取知乎网站,通过requests包进行登录操作。首先,尝试使用配置文件中的用户名和密码自动登录,若失败则依赖cookie。文章详细讲解了登录过程,并提示登录成功标志是生成的HTML文件包含用户信息。
最低0.47元/天 解锁文章
1203

被折叠的 条评论
为什么被折叠?



