爬虫修正：裁判文书网20200901更新增加登录系统

原创于 2020-09-04 15:31:35 发布 · 4.9k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#定位 #selenium #爬虫

爬虫同时被 2 个专栏收录

17 篇文章

订阅专栏

selenium

9 篇文章

订阅专栏

针对裁判文书网2020年9月1日更新后的登录系统，介绍如何使用手机号注册并登录，新增登录函数实现自动化操作，解决登录后页面跳转问题。

爬虫修正：裁判文书网20200901更新增加登录系统

一、登录系统的增加
二、增加登录函数
三、一个比较纠结的地方

一、登录系统的增加

在这里插入图片描述
导致需要登录，直接是无法进入了。以往可以直接进入具体的类别如

现在无法进入，点击该网址，后跳转到登录界面

需要通过手机号进行注册后才可以进入

二、增加登录函数

在这里插入图片描述

    def login(self):
    	"""登录"""
    	# 切换框架
    	wait = self.wait
    	self.browser.refresh()
    	frame = wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="contentIframe"]')))
    	self.browser.switch_to.frame(frame)

    	click = wait.until(EC.presence_of_element_located(
        (By.XPATH, '/html/body/app-root/div/app-login/div/div/form/div/div[1]/input')))
    	# actions.move_to_element(click).click().perform()
    	# click.click()
    	click.send_keys("自己的手机号")
    	time.sleep(1)
    	click1 = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'input.ng-invalid')))
    	# click1.clear()
    	click1.send_keys("密码")
    	time.sleep(1)#等一秒是最优选择，短了网络错误
   		button1 = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.custom-button')))
    	button1.click()
    	# 必须加上表单退出，否者就是死元素无法定位
    	self.browser.switch_to.default_content()

    	# 新版改变，导致无法直接进入刑事
    	click = wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="_view_1540966819000"]/div/ul/li[2]/a')))

   		click.click()

这里有个比较奇怪的地方就在于我传入的url是具体页面，但是登录后并不跳转，于是通过元素在此点击进入，但是再次点击后形成新的标签页，而原标签页此时就开始跳转了，导致出现两个一样的标签页，虽然也没有什么关系，但是终究不完美

下载成功

在这里插入图片描述

三、一个比较纠结的地方

通过手机号登录后其实比较怕后台通过查账号频率而封掉自己的账号，但是9月1号开始的注册，现在的接码平台手机号已经很多被注册了（怀疑有许多商业公司爬取了这些手机号进行了批量注册），可能得花钱去接码平台注册了！！！

之前下载的可以进行更新：链接: 登录函数.

最新的下载：链接: 裁判文书爬虫20200901.

42 条评论

还不去学习！！ 2021.06.29
您好，我现在下载您的代码，然后现在from crawler_tools import user_agent as u 这个一直出错，导致我现在无法进行下一步
- python__reported回复还不去学习！！ 2021.06.29
  这是请求头，可以去掉这部分

Asterisk-.- 2021.05.11
请问博主这个现在是不是已经用不了了我下载下来之就一直在运行但是没有数据
- python__reported回复Asterisk-.- 2021.05.13
  你可以看看浏览器版本360极速浏览器79版

dang1233 2021.01.21
大佬，我按你的思路自己写了一个，但发现访问次数多了，搜索栏就会变成“暂无数据”，基本上翻到第三页就不行了得等等。是我被限制了吗，你遇到过这种情况吗。我还在测试阶段，基本上只下载3页数据的
- python__reported回复dang1233 2021.01.22
  账号被限制了，你是登录不了的
- python__reported回复dang1233 2021.01.22
  用的是什么浏览器，之前用火狐还行，现在火狐也不行，用的的360极速版11.0的就还可以用
- dang1233回复python__reported 2021.01.21
  电脑、账号、IP都换了[face]monkey2:017.png[/face]，还是没法解决，有点难顶
- dang1233回复python__reported 2021.01.21
  [face]monkey2:019.png[/face]不行啊，用火狐，手动点击两三页，搜索结果都会变成“暂无数据”，换个IP也没用，不会是账号被限制了吧
- dang1233回复python__reported 2021.01.21
  好的，我一直用的Chrome，下个火狐试试
- python__reported回复dang1233 2021.01.21
  应该是浏览器的问题，换一个浏览器

weixin_45551967 2020.12.12
请问博主，我的selenium，from selenium.webdriver.firefox.options import Options这一句报错，找不到options怎么办，selenium.webdriver.firefox可以正常导入
- python__reported回复weixin_45551967 2020.12.12
  应该不会啊！，尝试升级一下

瓦匠徐尼玛 2020.11.20
播主大大，你的crime_and_cities文件是怎么爬的呀，方便提供一下思路吗
- python__reported回复瓦匠徐尼玛 2020.11.20
  这个内容不是爬的而是用全国城市和所有的罪名生成的

瓦匠徐尼玛 2020.11.19
你好，下载了你的代码 crawler_tools库报红网上也没有相应的解决方法
- 瓦匠徐尼玛回复python__reported 2020.11.19
  已经，解决了，现在就是不报错，也没有提示，程序一直运行，但是好像没有爬取
- python__reported回复瓦匠徐尼玛 2020.11.19
  你是python3.7吗？

liuming1541 2020.11.15
博主好啊，感谢你分享的代码，我有个疑问，现在好像每换一个关键词爬取，content_change方法都会登录1次，这样是不是就相当于在频繁登录啊？有点担心封号，能否只登录1次，接下来的爬取可以不再登录吗？（我是外行，猜能不能像浏览器Cookies记录1次登录即可）
- liuming1541回复python__reported 2020.11.16
  那我就放心了，感谢！
- python__reported回复liuming1541 2020.11.15
  应该不能记录，频繁登录没有问题，我已经登录几十万次了