相比于"今日头条"App, 大家可能对"趣头条"的了解少了很多,趣头条App作为一款以"阅读有奖"来吸引阅读的新闻类app,用户群体很大.
趣头条的首页如下,与其他内容类App大同小异,即包含列表页( 样例地址)和详情页 样例地址.

首先定义需要抓取的列表页地址
bash_url = 'http://api.1sapp.com/content/outList?cid='
mid_url = '&tn=1&page='
end_url = '&limit=10&user=temporary1534345404402&show_time=&min_time=&content_type=1&dtu=200'
api_url = 'http://api.1sapp.com/content/outList?cid={}&tn=1&page=1&lim

本文介绍了如何针对趣头条的财经频道进行网络爬虫,重点解析了爬取过程中的关键参数如cid和min_time,以及如何实现增量爬取策略。项目采用Scrapy框架,并以Mongodb为数据存储,代码已开源。
最低0.47元/天 解锁文章
2322

被折叠的 条评论
为什么被折叠?



