怎么用Python爬虫音频平台

搜索郭德纲相声,选择第一个专辑,点击进入。 

 

 

 

找数据小技巧:直接先找xhr分类,如没有数据,再找all里第一个html,一般情况下,批量采集的数据是以json数据格式获取的。

喜马拉雅的音频数据藏在点击播放后的url里。截图中的url正是音频列表的数据了。

 

 接着点开右侧 Preview预览的文件,trackId就是区分每个文件的id。要找到下载数据的地方,就必须找到唯一的关键词。

 顺着左侧的url查看,发现下面这个url对应的右侧数据,有我们需要的.m4a音频文件数据。

 

 经过url的观察,发现请求头里,都会有个xm-sign的数据。没有这个数据,则抓取不到我们要的数据。

 

 那我们就生成xm-sign数据,规则是 md5(himalaya-服务器时间戳)(100以内随机数)服务器时间戳(100以内随机数)现在时间戳。(每次抓取数据的时候,都需要调用该方法,现在时间戳和服务器时间戳相差大到一定值,则获取不到数据)

 

def getServerTime(self):
        """
        获取喜马拉雅服务器的时间戳
        :return:
        """
        # 这个地址就是返回服务器时间戳的接口
        serverTimeUrl = "https://www.ximalaya.com/revision/time"
        response = requests.get(serverTimeUrl,headers = self.headers)
        return response.text
 
    def getSign(self,serverTime):
        """
        生成 xm-sign
        规则是 md5(himalaya-服务器时间戳)(100以内随机数)服务器时间戳(100以内随机数)现在时间戳
        :param serverTime:
        :return:
        """
        nowTime = str(round(time.time()*1000))
 
        sign = str(hashlib.md5("himalaya-{}".format(serverTime).encode()).hexdigest()) + "({})".format(str(round(random.random()*100))) + serverTime + "({})".format(str(round(random.random()*100))) + nowTime
        # 将xm-sig
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值