爬虫修正:裁判文书网20200901更新增加登录系统
一、登录系统的增加

导致需要登录,直接是无法进入了。以往可以直接进入具体的类别如

现在无法进入,点击该网址,后跳转到登录界面

需要通过手机号进行注册后才可以进入
二、增加登录函数

def login(self):
"""登录"""
# 切换框架
wait = self.wait
self.browser.refresh()
frame = wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="contentIframe"]')))
self.browser.switch_to.frame(frame)
click = wait.until(EC.presence_of_element_located(
(By.XPATH, '/html/body/app-root/div/app-login/div/div/form/div/div[1]/input')))
# actions.move_to_element(click).click().perform()
# click.click()
click.send_keys("自己的手机号")
time.sleep(1)
click1 = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'input.ng-invalid')))
# click1.clear()
click1.send_keys("密码")
time.sleep(1)#等一秒是最优选择,短了网络错误
button1 = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.custom-button')))
button1.click()
# 必须加上表单退出,否者就是死元素无法定位
self.browser.switch_to.default_content()
# 新版改变,导致无法直接进入刑事
click = wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="_view_1540966819000"]/div/ul/li[2]/a')))
click.click()
这里有个比较奇怪的地方就在于我传入的url是具体页面,但是登录后并不跳转,于是通过元素在此点击进入,但是再次点击后形成新的标签页,而原标签页此时就开始跳转了,导致出现两个一样的标签页,虽然也没有什么关系,但是终究不完美
下载成功

三、一个比较纠结的地方
通过手机号登录后其实比较怕后台通过查账号频率而封掉自己的账号,但是9月1号开始的注册,现在的接码平台手机号已经很多被注册了(怀疑有许多商业公司爬取了这些手机号进行了批量注册),可能得花钱去接码平台注册了!!!
之前下载的可以进行更新:链接: 登录函数.
最新的下载:链接: 裁判文书爬虫20200901.

针对裁判文书网2020年9月1日更新后的登录系统,介绍如何使用手机号注册并登录,新增登录函数实现自动化操作,解决登录后页面跳转问题。
455

被折叠的 条评论
为什么被折叠?



