python爬虫——爬取喜马拉雅app

最新推荐文章于 2024-07-01 17:20:06 发布

原创

最新推荐文章于 2024-07-01 17:20:06 发布 · 6.4k 阅读

38 ·

CC 4.0 BY-SA版权

主要爬取喜马拉雅悬疑栏目的小说名字，演播者以及简介，先上爬取的数据图。
在这里插入图片描述

1. 此次抓取使用fiddler抓包，喜马拉雅的抓包很简单，这里就不多阐述。
在这里插入图片描述
通过对比两条的url可以发现只有ts-时间戳和pageId不同，其他的都没变化，因此可以知道，改变pageId就可以实现翻页。另外最上面的url是我去除一些不必要的参数，其没有影响。
2. 分析数据

小说是存储在列表当中的，所以需要先取出这个列表，再遍历获取小说的信息。

# 访问的url
url = 'http://mobile.ximalaya.com/mobile/discovery/v2/category/metadata/albums?categoryId=49&device=android' \
     '&keywordId=232&metadatas=&operator=2&pageId=1&pageSize=20&scale=1&version=6.5.87'
# 请求url获得返回的数据是json格式
resp