网络爬虫-jd滑块验证码

仅供研究学习使用。

目标站点 --> 京东网页登录

在这里插入图片描述


当我们输入账号密码后,点击登录,首先映入眼帘的是一个滑块,那我们先分析一下滑块吧。

在这里插入图片描述
上图是滑块的有关信息,左边的横线是请求的url,右边是参数,很显然,里面有好多参数。但经过分析,d就是滑块轨迹的加密,c跟下图获取滑块图片一起返回的,下图中challenge就是参数c,参数e可以从网页源码中获取到,而参数appId是定值,参数o就是我们的账号

在这里插入图片描述

下面我们就分析一下参数d,看它怎么加密。

这里我是通过下图调用栈,找到的,点击下图画横线的,然后格式化一下,再搜索appId就可以找到。

在这里插入图片描述
最后找到的就是下图这个,这里我已经打上断点。

在这里插入图片描述
我们再次登录,会自动断在这里。我们滑动滑块,就会停到这里

在这里插入图片描述
可以清除看到,g为一个数组,其实就是我一定滑块的轨迹,这里我们可以借鉴一个文章里面的滑块轨迹思路

import random
import matplotlib.pyplot as plt
import numpy as np



class GTrace(object):
    def __init__(self):
        self.__pos_x = []
        self.__pos_y = []
        self.__pos_z = []

    def __set_pt_time(self):
        """
        设置各节点的时间
        分析不同时间间隔中X坐标数量的占比
        统计结果: 1. 80%~90%的X坐标在15~20毫秒之间
                2. 10%~15%在20~200及以上,其中 [-a, 0, x, ...] 这里x只有一个,取值在110~200之间
                    坐标集最后3~5个坐标取值再50~400之间,最后一个坐标数值最大

        滑动总时间的取值规则: 图片宽度260,去掉滑块的宽度剩下200;
                        如果距离小于100,则耗时1300~1900之间
                        如果距离大于100,则耗时1700~2100之间
        """
        __end_pt_time = []
        __move_pt_time = []
        self.__pos_z = []

        total_move_time = self.__need_time * random.uniform(0.8, 0.9)
        start_point_time = random.uniform(110, 200)
        __start_pt_time = [0, 0, int(start_point_time)]

        sum_move_time = 0

        _tmp_total_move_time = total_move_time
        while True:
            delta_time = random.uniform(15, 20)
            if _tmp_total_move_time < delta_time:
                break

            sum_move_time += delta_time
            _tmp_total_move_time -= delta_time
            __move_pt_time.append(int(start_point_time+sum_move_time))

        last_pt_time = __move_pt_time[-1]
        __move_pt_time.append(last_pt_time+_tmp_total_move_time)

        sum_end_time = start_point_time + total_move_time
        other_point_time = self.__need_time - sum_end_time
        end_first_ptime = other_point_time / 2

        while True:
            delta_time = random.uniform(110, 200)
            if end_first_ptime - delta_time <= 0:
                break

            end_first_ptime -= delta_time
            sum_end_time += delta_time
            __end_pt_time.append(int(sum_end_time))

        __end_pt_time.append(int(sum_end_time + (other_point_time/2 + end_first_ptime)))
        self.__pos_z.extend(__start_pt_time)
        self.__pos_z.extend(__move_pt_time)
        self.__pos_z.extend(__end_pt_time)

    def __set_distance(self, _dist):
        """
        设置要生成的轨迹长度
        """
        self.__distance = _dist

        if _dist < 100:
            self.__need_time = int(random.uniform(500, 1500))
        else:
            self.__need_time = int(random.uniform(1000, 2000))

    def __get_pos_z(self):
        return self.__pos_z

    def __get_pos_y(self):
        _pos_y = [random.uniform(-40, -18), 0]
        point_count = len(self.__pos_z)
        x = np.linspace(-10, 15, point_count - len(_pos_y))
        arct_y = np.arctan(x)

        for _, val in enumerate(arct_y):
            _pos_y.append(val)

        return _pos_y

    def __get_pos_x(self, _distance):
        """
        绘制标准的数学函数图像: 以 tanh 开始 以 arctan 结尾
        根据此模型用等比时间差生成X坐标
        """
        # first_val = random.uniform(-40, -18)
        # _distance += first_val
        _pos_x = [random.uniform(-40, -18), 0]
        self.__set_distance(_distance)
        self.__set_pt_time()

        point_count = len(self.__pos_z)
        x = np.linspace(-1, 19, point_count-len(_pos_x))
        ss = np.arctan(x)
        th = np.tanh(x)

        for idx in range(0, len(th)):
            if th[idx] < ss[idx]:
                th[idx] = ss[idx]

        th += 1
        th *= (_distance / 2.5)

        i = 0
        start_idx = int(point_count/10)
        end_idx = int(point_count/50)
        delta_pt = abs(np.random.normal(scale=1.1, size=point_count-start_idx-end_idx))
        for idx in range(start_idx, point_count):
            if idx*1.3 > len(delta_pt):
                break

            th[idx] += delta_pt[i]
            i+=1

        _pos_x.extend(th)
        return _pos_x[-1], _pos_x

    def get_mouse_pos_path(self, distance):
        """
        获取滑动滑块鼠标的滑动轨迹坐标集合
        """
        result = []
        _distance, x = self.__get_pos_x(distance)
        y = self.__get_pos_y()
        z = self.__get_pos_z()
        for idx in range(len(x)):
            result.append([int(x[idx]), int(y[idx]), int(z[idx])])
        import matplotlib.pyplot as plt
        plt.plot(z,x)
        plt.show()
        return int(_distance), result

我们把数组copy下来,本地画一下图,然后看看是怎样的轨迹。

在这里插入图片描述
基本上都是这样的一个轨迹。我们用那个文章的代码跑一下,然后生成跟g一样的数组,本地生成的数组替换滑块的,看看能不能过,经过我的尝试,是可以的,至于那个移动长度,其实数组的第一个(从第0个开始)的第0个参数,被最后一个数组的第0个减去,然后就是移动距离。


[
    [
        "808",
        "211",
        1626942564294
    ],
    [
        "856",
        "240",
        1626942564294
    ],
    [
        "857",
        "240",
        1626942564406
    ],
    [
        "859",
        "240",
        1626942564413
    ],
    [
        "860",
        "240",
        1626942564421
    ],
    [
        "861",
        "240",
        1626942564437
    ],
    [
        "864",
        "240",
        1626942564445
    ],
    [
        "865",
        "240",
        1626942564453
    ],
    [
        "866",
        "240",
        1626942564461
    ],
    [
        "867",
        "240",
        1626942564469
     ]
]

在这里插入图片描述

通过上图可以看出,g发生了改变,没错,就是我们本地生成的数组。我们接着让它运行,看一下结果。

在这里插入图片描述
下面我们就要看它的加密了,

在这里插入图片描述
在这里插入图片描述

function string10to64(d) {
    var c = "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ-~".split("")
        , b = c.length
        , e = +d
        , a = [];
    do {
        mod = e % b;
        e = (e - mod) / b;
        a.unshift(c[mod])
    } while (e);
    return a.join("")
}

function prefixInteger(a, b) {
        return (Array(b).join(0) + a).slice(-b)
    }

function pretreatment(d, c, b) {
    var e = string10to64(Math.abs(d));
    var a = "";
    if (!b) {
        a += (d > 0 ? "1" : "0")
    }
    a += prefixInteger(e, c);
    return a
}


function getCoordinate(c) {
    var b = new Array();
    for (var e = 0; e < c.length; e++) {
        if (e == 0) {
            b.push(pretreatment(c[e][0] < 262143 ? c[e][0] : 262143, 3, true));
            b.push(pretreatment(c[e][1] < 16777215 ? c[e][1] : 16777215, 4, true));
            b.push(pretreatment(c[e][2] < 4398046511103 ? c[e][2] : 4398046511103, 7, true))
        } else {
            var a = c[e][0] - c[e - 1][0];
            var f = c[e][1] - c[e - 1][1];
            var d = c[e][2] - c[e - 1][2];
            b.push(pretreatment(a < 4095 ? a : 4095, 2, false));
            b.push(pretreatment(f < 4095 ? f : 4095, 2, false));
            b.push(pretreatment(d < 16777215 ? d : 16777215, 4, true))
        }
    }
    return b.join("")
}

function slide(array) {
    g = array
    return getCoordinate(g)

}

最终成品代码图:

在这里插入图片描述

ps: 京东这个滑块的加密不难,难点主要在于轨迹这块,控制时长,坐标识别,都是比较关键的点。


Ending

如有权益问题可以发私信联系我删除

联系方式: 442891187(QQ)

### 实现滑块验证码爬虫自动化 为了实现滑块验证码的自动化处理,通常采用的技术栈包括Selenium WebDriver用于浏览器操作以及OpenCV库进行图像识别。具体来说,在面对滑块验证码时,程序需先获取原始图片和带有缺口位置的目标图片,通过计算两者之间的差异来确定滑块应移动的距离。 针对京东平台上的滑块验证码自动化登录场景[^1],可以利用Python中的`selenium`模块控制Firefox浏览器实例访问指定网页并执行相应的表单提交动作。当遇到滑块验证码挑战时,则进一步借助计算机视觉技术定位滑块的位置及其目标位移量: ```python from selenium import webdriver import time import cv2 import numpy as np def get_image_location(image_url, template_url): """使用opencv模板匹配方法找到滑块位置""" img_rgb = cv2.imread(image_url) template = cv2.imread(template_url) res = cv2.matchTemplate(img_rgb, template, cv2.TM_CCOEFF_NORMED) min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(res) top_left = max_loc bottom_right = (top_left[0] + w, top_left[1] + h) center_x = int((bottom_right[0]+top_left[0])/2) return center_x # 初始化webdriver对象 driver = webdriver.Firefox() driver.get('https://passport.jd.com/new/login.aspx') # 执行登录流程... element_clickable = driver.find_element_by_xpath('/html/body/div[2]/div[2]/div[1]/div/div[3]/a') element_username = driver.find_element_by_id('loginname') element_password = driver.find_element_by_id('nloginpwd') element_submit = driver.find_element_by_id('loginsubmit') element_clickable.click() time.sleep(1) # 等待页面加载完成 element_username.send_keys('your_account_here') element_password.send_keys('your_password_here') element_submit.click() # 处理滑块验证码部分 slider_button = driver.find_element_by_class_name('nc_iconfont.btn_slide') # 假设这是滑块按钮的选择器 action_chains = ActionChains(driver) source_img_path = 'path_to_source_image.png' target_img_path = 'path_to_target_image_with_gap.png' gap_position = get_image_location(source_img_path, target_img_path) action_chains.drag_and_drop_by_offset(slider_button, gap_position - slider_button.size['width']/2 , 0).perform() ``` 上述代码片段展示了如何结合selenium与opencv解决滑块验证码问题的一个简化版本。需要注意的是,实际应用中可能还需要考虑更多细节,比如更精确地模拟人类行为模式以规避反作弊机制等。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值