爬虫修正:裁判文书网20200901更新增加登录系统

针对裁判文书网2020年9月1日更新后的登录系统,介绍如何使用手机号注册并登录,新增登录函数实现自动化操作,解决登录后页面跳转问题。

爬虫修正:裁判文书网20200901更新增加登录系统

一、登录系统的增加

在这里插入图片描述
导致需要登录,直接是无法进入了。以往可以直接进入具体的类别如
在这里插入图片描述
现在无法进入,点击该网址,后跳转到登录界面
在这里插入图片描述

需要通过手机号进行注册后才可以进入

二、增加登录函数

在这里插入图片描述

    def login(self):
    	"""登录"""
    	# 切换框架
    	wait = self.wait
    	self.browser.refresh()
    	frame = wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="contentIframe"]')))
    	self.browser.switch_to.frame(frame)

    	click = wait.until(EC.presence_of_element_located(
        (By.XPATH, '/html/body/app-root/div/app-login/div/div/form/div/div[1]/input')))
    	# actions.move_to_element(click).click().perform()
    	# click.click()
    	click.send_keys("自己的手机号")
    	time.sleep(1)
    	click1 = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'input.ng-invalid')))
    	# click1.clear()
    	click1.send_keys("密码")
    	time.sleep(1)#等一秒是最优选择,短了网络错误
   		button1 = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.custom-button')))
    	button1.click()
    	# 必须加上表单退出,否者就是死元素无法定位
    	self.browser.switch_to.default_content()

    	# 新版改变,导致无法直接进入刑事
    	click = wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="_view_1540966819000"]/div/ul/li[2]/a')))

   		click.click()

这里有个比较奇怪的地方就在于我传入的url是具体页面,但是登录后并不跳转,于是通过元素在此点击进入,但是再次点击后形成新的标签页,而原标签页此时就开始跳转了,导致出现两个一样的标签页,虽然也没有什么关系,但是终究不完美

下载成功

在这里插入图片描述

三、一个比较纠结的地方

通过手机号登录后其实比较怕后台通过查账号频率而封掉自己的账号,但是9月1号开始的注册,现在的接码平台手机号已经很多被注册了(怀疑有许多商业公司爬取了这些手机号进行了批量注册),可能得花钱去接码平台注册了!!!

之前下载的可以进行更新:链接: 登录函数.

最新的下载:链接: 裁判文书爬虫20200901.

评论 42
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值