Python爬虫实战——今日头条图片下载

最新推荐文章于 2023-11-03 15:30:01 发布

原创

最新推荐文章于 2023-11-03 15:30:01 发布 · 1.5k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据挖掘 #ajax

本文介绍了使用Python爬虫从今日头条网站抓取并下载图片的过程。作者在学习爬虫时发现网络教程中的页面结构已更新，通过分析发现数据是通过Ajax异步加载。通过监控网络请求，找到包含图片信息的JSON数据，并解析提取图片标题和URL，最终实现了图片的本地存储。

目前正在自学爬虫，在b站上看到网课都比较过时，页面情况早已改变，对于新手比较不友好，经过尝试成功爬取今日头条图片并下载。

首先是在今日头条下进行搜索：https://www.toutiao.com/search/?keyword=美女
右键点击查看网页源代码后发现并不是我们需要的，经过分析，应该是该数据是通过异步加载Ajax实现的。右键点击检查，点击Network并切换到XHR，此时再刷新页面可以看到offset=0且为json格式的数据，往下滑动可以看到出现offset=20 40，代表页面持续加载。右侧的Request URL链接就是我们需要的。

在这里插入图片描述
下图中的aid等数据就是Request URL后面的参数。

Preview里的data就是我们需要提取的每条搜索结果的数据内容。

因此，

def get_page(offset, keyword):
    data = {
   
   
        'aid': 24,
        'app_name': 'web_search',
        'offset': offset,
        'format': 'json',
        'keyword': keyword,
        'autoload': 'true',
        'count': '20',
        'en_qc': '1',
        'cur_tab': '1',
        'from': 'search_tab',
        'pd':