某抑云评论的获取思路及实现

文章目录

前言

网抑云评论区个个都是人才,这里的人说话又好听,我超喜欢这里的。

把评论抓取下来方便练习网抑,又练习了爬虫,一举两得

好,网抑开始

在这里插入图片描述

分析

首先,第一步肯定是打开网抑云网页,找到一首歌

在这里插入图片描述

歌曲下面的内容为评论,我们要获取的就是评论。

查看网页源代码,看看评论是否存在于源代码中,经过搜索,发现评论内容并不存在于源代码中,这时就需要使用浏览器的F12开发者工具了。

选项调到network,重新加载网页,寻找和评论相关的数据,发现在get链接中存在评论内容

在这里插入图片描述

再观察该链接的Headers

在这里插入图片描述

根据信息写出第一版脚本

import requests
import json

url = "https://music.163.com/weapi/comment/resource/comments/get?csrf_token="

data = {
'params': 'HpF+XPoFUsMj/Na79aMOIkUiRv988lVYmEFtskIGIkapDFKGQ1cMZ1thM+z+wOOjD9T7xHEn1RIprG/4Hig1JnjoE9b6ba34O1EQOZdk1/SojzFWmCjyOFF1SQILZC7lDoQiLR8fI76PiH0fzNWUyD7rjZnsgU7zt8GD+EvfLZGjUrjn+VCy8f9htBU3wJKNsFDq8qXe6k/8lTDrwxbQfFustll3Zfd5NpVHO77vTprn3lz5RWVPutlZsvc7NxPeMIyTt5tABjg7FlawpX8j2TiGt0HjukQXagnu8Ev/4J8Ox+2Oar3hnA0W3G0riUJaZQi5xlxhdTxtcPP4wtLzfsJOi8V2B5DhTFjQo53ujC0=',
'encSecKey': '1d1d8553270497244b0952974b1f46de6f5a746c5a931b3be0b565a15bcaccf5d9a03d6a709d925b9812d044ff49137601edf698bb1a89b5eb3fbf22af18fbc3b88b9fb3de52d5ca4dbd7cd384a8d7a403735dc688513d4f05aa4522f8bb63f28055db77d15fbdbec3f3d5f751920b9f0ef91f7cd15c551a52e18c47fcf5a12d'
}

headers = {
    'referer': 'https://music.163.com/song?id=1404722668',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
}

res = requests.post(url, data = data, headers = headers)
#print(res.json())

comments_obj = json.loads(res.text)
for i in range(0,20):
    nickname = comments_obj['data']['comments'][i]['user']['nickname']
    content = comments_obj['data']['comments'][i]['content']
    print(nickname + ':' + content + '\n')

获取到的评论内容

在这里插入图片描述

做到这时候突然发现好像有什么不对,回头再看看Preview返回的内容,只有20条评论,对比一下网页中显示的,每页显示的评论数正好是20

在这里插入图片描述

那么问题来了,我们要怎么获取所有的评论呢,点下一页看一看。

转到post提交的数据,发现和第一次的有些不同

在这里插入图片描述

经过对比,数据果然发生了改变

在这里插入图片描述

推测发送的数据params和encSecKey会通过服务器进行校验解密然后返回数据,在这之间一定会有加密过程存在,开始通过Initiator调用栈进行分析

首先跟踪最上层

在这里插入图片描述

设置断点

在这里插入图片描述

刷新网页,不断运行,直到断到https://music.163.com/weapi/comment/resource/comments/get链接上

查看data数据,发现是params和encSecKey拼接形成的

在这里插入图片描述

进行栈回溯查找,发现u0x.be1x中含有疑似原始数据

在这里插入图片描述

经过不断尝试,发现在执行window.asrsea这个函数前数据属于未加密状态,执行后变为加密数据

在这里插入图片描述

原始数据内容

csrf_token: "0fa785ecaed03aee0c1b9d20497d5a92"
cursor: "-1"
offset: "0"
orderType: "1"
pageNo: "1"
pageSize: "20"
rid: "R_SO_4_1404722668"
threadId: "R_SO_4_1404722668"

加密后数据

"params=vSIU7AHhdAImi%2FIDffKGZld9LLIMjY2L5qaO9LhutSLsRUdeXTmVzXzQ0o9rrO8OIpRQ36VDqF2T%2FhjcaL8lJmTX2mNTZ3jwlVfyUlqyUbPJ8eZ6HsBRV%2FhhCL08g2q%2BfnM9B6uXgUu%2F8Jg9Br2aDgxF0j7oQqyObKxSDzzHipCwaUpkHUqgWRfDFD7z2Fm%2FpMENZafgNS3DIEu6yfqb8Z8cJdmGokVX6PbfyfZmmnlk%2FYmLEYZyGHloKJTALpl%2FlhO17KtIOgYI3o6SmPvUFV7sKM9bF%2B6reMWNSRVlfcw69vx94j%2Fjmm74Opomn%2BqXAQaM1sLSfGUCNh5XL6xioG33ew%2FrRgFFwzF%2Fexbe%2BfQ%3D&encSecKey=36c1ac512ec8e631949ebdaec4852dbe0e752d6b4f7f748e7561034e18cf0368fff53ea1e7ace3fc8134521062294cb96f30243bd71c3fe044097a2f4daeff2da95b68d1fe843685a88d7dbb35871f200d70b57ef43cde2d14f72c41ecf703635d806f7cc2d9fc95113fac08f53869183692bc28bc89455eb35d9b31acdcf8d1"

找到了原始数据和被加密的数据,那么就来看一下它的加密函数是怎么实现的

搜索windows.asrsea函数,看看是怎么实现的

在这里插入图片描述

windows.asrsea = d,发现和上面的a,b,c,d函数有关,下面来分析一下

#获取一个随机数 
function a(a) {
        var d, e, b = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789", c = "";
        for (d = 0; a > d; d += 1)
            e = Math.random() * b.length,
            e = Math.floor(e),
            c += b.charAt(e);
        return c
    }

#对数据进行AES加密
function b(a, b) {
        var c = CryptoJS.enc.Utf8.parse(b)
          , d = CryptoJS.enc.Utf8.parse("0102030405060708")
          , e = CryptoJS.enc.Utf8.parse(a)
          , f = CryptoJS.AES.encrypt(e, c, {
            iv: d,
            mode: CryptoJS.mode.CBC
        });
        return f.toString()
    }

function c(a, b, c) {
        var d, e;
        return setMaxDigits(131),
        d = new RSAKeyPair(b,"",c),
        e = encryptedString(d, a)
    }
function d(d, e, f, g) {
        var h = {}
          , i = a(16); #i是一个随机数
        return h.encText = b(d, g), d = 原始数据,g是定值
        h.encText = b(h.encText, i),
        h.encSecKey = c(i, e, f),
        h
    }

四个参数

在这里插入图片描述

d: "{\"rid\":\"R_SO_4_1404722668\",\"threadId\":\"R_SO_4_1404722668\",\"pageNo\":\"1\",\"pageSize\":\"20\",\"cursor\":\"-1\",\"offset\":\"0\",\"orderType\":\"1\",\"csrf_token\":\"0fa785ecaed03aee0c1b9d20497d5a92\"}"
e: "010001"
f: "00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7"
g: "0CoJUm6Qyw8W8jud"

e,f,g三个参数都是定值,唯一有变动的就是d

function d(d, e, f, g) {
        var h = {}
          , i = a(16); #i是一个随机数
        return h.encText = b(d, g), d = 原始数据,g是定值
        h.encText = b(h.encText, i),
        h.encSecKey = c(i, e, f),#i是定值,encSecKey就是定值
        h
    }

分析函数d,只要i不变,encText和encSecKey就会是一个确定的值,当i = xhuWOhpLu26crPWm时

encSecKey: "09da75759838ea6296607c642fceaae610a0a54f2c8c6747e7336c1b2e88db8bbccd4a6add24520fd7eaad4d78b2e6261254cabd3ece07132030f2072bdf6a16fae99c387e82e1d18d641f3163bb7026fb58a2d2c531a31940b6fd45fb700ac14871305eeb79131a854a20b692e320c8fc8f6a2f8808291afed5a5cdabfc424f"
encText: "7i800NiAyzVreefGPMN7V+JWPvpswF2/db5DDJ6bDnCYaXRcNgMw2e9F/Ry5KVk/WyfOfK2JfPQvwbvQK1K3LWl2eSzZ09SVR+LAYGIfMnwl5aV6h9QFkX4vYLsSL+Qf4TQ53O971Gu/owtcITkqzn3Sspl1rQlJo1dKpomVMLvInvtCACpK5aYyn8TnVmesBH/2ZtylwdRxMAanTloa24ApRPtObxocitUN9ws4afN8DdnTYI+T4iND/72MfSu4/8+j/ttl7AYW10ZW66UrJzeoidZK570pgOXRGl0CAv4FfX/Gt4MC5NOJTmUV/NnbsE433nxqj20ZC+aw5wGFd2EqiYQN51LtuhZaLRs01SY="

encSecKey = c(i, e, f),i = xhuWOhpLu26crPWm ,encSecKey 就为下面的值

encSecKey = "09da75759838ea6296607c642fceaae610a0a54f2c8c6747e7336c1b2e88db8bbccd4a6add24520fd7eaad4d78b2e6261254cabd3ece07132030f2072bdf6a16fae99c387e82e1d18d641f3163bb7026fb58a2d2c531a31940b6fd45fb700ac14871305eeb79131a854a20b692e320c8fc8f6a2f8808291afed5a5cdabfc424f"

encText是进行了两次AES加密得到的值,我们先用代码实现一下看看是否能根据传入的数据得到上述encText的值

在使用python AES加密的时候踩了坑:

1.不知道AES加密后的数据还需要使用base64进行编码

2.AES要加密的数据不足16位补位方式不同的问题

查找了一些文章帖子问题才得以解决

https://www.52pojie.cn/thread-1166953-1-1.html
https://blog.youkuaiyun.com/baidu_36831253/article/details/95630076
https://blog.youkuaiyun.com/BigBoy_Coder/article/details/106815637

根据分析逻辑,最后得到了确定的encText

在这里插入图片描述

代码如下:

from Crypto.Cipher import AES
from binascii import b2a_hex, a2b_hex
from base64 import b64encode
import json


def to_16(data):
    pad = 16 -len(data) % 16
    data += chr(pad) * pad
    return data


data = {
    'csrf_token': '',
    'cursor': '-1',
    'offset': '0',
    'orderType': '1',
    'pageNo': '1',
    'pageSize': '20',
    'rid': 'R_SO_4_1303289043',
    'threadId': 'R_SO_4_1303289043' }

data1 =  "{\"rid\":\"R_SO_4_1404722668\",\"threadId\":\"R_SO_4_1404722668\",\"pageNo\":\"1\",\"pageSize\":\"20\",\"cursor\":\"-1\",\"offset\":\"0\",\"orderType\":\"1\",\"csrf_token\":\"0fa785ecaed03aee0c1b9d20497d5a92\"}"
def encrypt(data, key):
    key = key.encode('utf-8')
    mode = AES.MODE_CBC
    iv = b"0102030405060708"
    #iv = iv.encode('utf-8')
    data = to_16(data)
    cryptos = AES.new(key, mode, iv)
    encrypt_data = cryptos.encrypt(data.encode('utf-8'))
    b64_data = str(b64encode(encrypt_data), "utf-8")
    return b64_data

def main():
    key_g = "0CoJUm6Qyw8W8jud"
    #jdata = json.dumps(data)
    ecrypt_tmp_data = encrypt(data1, key_g)
    #print(ecrypt_tmp_data)
    key_i = "xhuWOhpLu26crPWm"
    ecrypt_data =encrypt(ecrypt_tmp_data, key_i)
    print(ecrypt_data)

if __name__ == '__main__':
    main()

通过上述分析,我们已经可以构建data数据,然后发送加密的data数据到服务器,就会请求下来我们想要的评论内容了。

ps:很多请求的post数据都是通过windows.asrsea加密的

总结

文章主要记录分析思路和还原过程中遇到的问题,代码就不放了(ps:主要是嫌麻烦懒的写了)

内容概要:本文档主要介绍了Intel Edge Peak (EP) 解决方案,涵盖从零到边缘高峰的软件配置和服务管理。EP解决方案旨在简化客户的入门门槛,提供一系列工具和服务,包括Edge Software Provisioner (ESP),用于构建和缓存操作系统镜像和软件栈;Device Management System (DMS),用于远程集群或本地集群管理;以及Autonomous Clustering for the Edge (ACE),用于自动化边缘集群的创建和管理。文档详细描述了从软件发布、设备制造、运输、安装到最终设备激活的全过程,并强调了在不同应用场景(如公共设施、工业厂房、海上油井和移动医院)下的具体部署步骤和技术细节。此外,文档还探讨了安全设备注册(FDO)、集群管理、密钥轮换和备份等关键操作。 适合人群:具备一定IT基础设施和边缘计算基础知识的技术人员,特别是负责边缘设备部署和管理的系统集成商和运维人员。 使用场景及目标:①帮助系统集成商和客户简化边缘设备的初始配置和后续管理;②确保设备在不同络环境下的安全启动和注册;③支持大规模边缘设备的自动化集群管理和应用程序编排;④提供详细的密钥管理和集群维护指南,确保系统的长期稳定运行。 其他说明:本文档是详细描述了Edge Peak技术及其应用案例。文档不仅提供了技术实现的指导,还涵盖了策略配置、安全性和扩展性的考虑,帮助用户全面理解和实施Intel的边缘计算解决方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值