python +selenium+phantomjs 登录爬取新浪微博动态js页面

最新推荐文章于 2025-05-23 23:09:48 发布

置顶

zekizz

最新推荐文章于 2025-05-23 23:09:48 发布

阅读量1.8w

点赞数 3

CC 4.0 BY-SA版权

分类专栏： python 文章标签： python cookie selenium 新浪微博 phantomjs

本文链接：https://blog.youkuaiyun.com/crystal_zero/article/details/51154632

本文介绍了如何使用Python结合Selenium和PhantomJS模拟登录新浪微博并爬取动态js页面。尽管面临验证码和动态加载的挑战，但通过PhantomJS可以解析JavaScript渲染后的页面内容。然而，由于微博动态分页加载，目前尚未找到自动化翻页的解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

登录新浪微博

最近新浪微博好烦，都取消不了验证码这个难搞得东西，而且跳来跳去，一改版以前的代码就都不能用了。目前整理的资料有三种方法：

 1. 设Cookie：简单粗暴，免去了模拟登录的好多麻烦，只是要定期更新
 2. 模拟登录：验证码是个大麻烦，有把验证码图片截下来，本地识别控制台输入验证
 3. 扫码登录 ：用app的扫码登录

其实除了设cookie ，在有验证码下，后两种方法差不多，都要人工干预。设cookie就不再说了。下面给出后两种方法的代码，代码来自GitHub - xchaoinfo/fuck-login: 模拟登录一些知名的网站，为了方便爬取需要登录的网站

模拟登录

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
'''
Required
- requests (必须)
- rsa (必须)
- pillow (可选)
Info
- author : "xchaoinfo"
- email  : "xchaoinfo@qq.com"
- date   : "2016.3.7"
'''
import time
import base64
import rsa
import binascii
import requests
import re
import random
try:
    from PIL import Image
except:
    pass
try:
    from urllib.parse import quote_plus
except:
    from urllib import quote_plus

'''
如果没有开启登录保护，不用输入验证码就可以登录
如果开启登录保护，需要输入验证码

'''


# 构造 Request headers
agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0'
headers = {
    'User-Agent': agent
}

session = requests.session()

# 访问 初始页面带上 cookie
index_url = "http://weibo.com/login.php"
try:
    session.get(index_url, headers=headers, timeout=2)
except:
    session.get(index_url, headers=headers)
try:
    input = raw_input
except:
    pass


def get_su(username):
    """
    对 email 地址和手机号码 先 javascript 中 encodeURIComponent
    对应 Python 3 中的是 urllib.parse.quote_plus
    然后在 base64 加密后decode
    """
    username_quote = quote_plus(username)
    username_base64 = base64.b64encode(username_quote.encode("utf-8"))
    return username_base64.decode("utf-8")


# 预登陆获得 servertime, nonce, pubkey, rsakv
def get_server_data(su):
    pre_url = "http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su="
    pre_url = pre_url + su + "&rsakt=mod&checkpin=1&client=ssologin.js(v1.4.18)&_="
    pre_url = pre_url + str(int(time.time() * 1000))
    pre_data_res = session.get(pre_url, headers=headers)

    sever_data = eval(pre_data_res.content.decode("utf-8").replace("sinaSSOController.preloginCallBack", ''))

    return sever_data


# print(sever_data)


def get_password(password, servertime, nonce, pubkey):
    rsaPublickey = int(pubkey, 16)
    key = rsa.PublicKey(rsaPublickey, 65537)  # 创建公钥
    message = str(servertime) + '\t' + str(nonce) + '\n' + str(password)  # 拼接明文js加密文件中得到
    message = message.encode("utf-8")
    passwd = rsa.encrypt(message, key)  # 加密
    passwd = binascii.b2a_hex(passwd)  # 将加密信息转换为16进制。
    return passwd


def get_cha(pcid):
    cha_url = "http://login.sina.com.cn/cgi/pin.php?r="
    cha_url = cha_url + str(int(random.random() * 100000000)) + "&s=0&p="
    cha_url = cha_url + pcid
    cha_page = session.get(cha_url, headers=headers)
    with open(