本次的目标站点原计划是一个比较简单的站点,后来发现有点太简单了,就额外增加了一个案例,学一个赠一个,本篇博客核心用到的技术依旧是队列 queue 技术。
目标站点【一派话题广场】分析
本篇博客的第一个采集目标站点是:https://sspai.com/matrix/pods,少数派网站的一个子级栏目。
目标数据所在界面如下图所示:
通过开发者工具,不断下拉加载页面,得到的接口请求规则如下:
https://sspai.com/api/v1/bullet/search/page/get?type=0&limit=10&offset=0&created_at=0
https://sspai.com/api/v1/bullet/search/page/get?type=0&limit=10&offset=10&created_at=0
https://sspai.com/api/v1/bullet/search/page/get?type=0&limit=10&offset=20&created_at=0