1.建立scrapy爬虫程序,在terminal命令行输入’scrapy startproject douban_login’
2.建立爬虫主程序,主要步骤都在这里实现,以douban_login.py命名
程序代码如下:
import scrapy
from scrapy.spider import CrawlSpider
from urllib import request
from PIL import Image#加载验证码图片的模块
#登陆豆瓣主程序
class Douban_login(CrawlSpider):
name = 'douban_login'
allowed_domains = ['douban.com']
start_urls = ['https://accounts.douban.com/login']
log_in = 'https://accounts.douban.com/login'
def parse(self, response):
#创建一个可以进行填写模拟登陆信息的字典
formdata = {
'source':'None',
'redir':'https://accounts.douban.com/login',
'form_email':'979029080@qq.com',
'form_password':'xl7187596',
'remember':'on',
'login':'登录'
}
#获取填写登录信息的对象
captcha_url = response.css('img#captcha_image::attr(src)').get()
#如果存在,填入对应的登录信息
if captcha_url:
captcha =self.captcha_img(captcha_url)
formdata['captcha