对Ajax加载页面爬虫的几个类型分析

最新推荐文章于 2025-03-17 19:34:28 发布

西门大盗

最新推荐文章于 2025-03-17 19:34:28 发布

阅读量615

点赞数 1

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/xiongzaiabc/article/details/80925016

本文介绍了两种网页数据抓取的方法：一种是针对直接通过response返回JSON数据的情况，使用json.loads进行解析；另一种是从HTML源码中提取所需信息，利用PyQuery进行选择器匹配。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

情景一：

如果要爬取的是这个url直接response（preview）回来的内容，则用data = json.loads(html)对response进行处理，如下图

提取代码参考如下：

def parse_html(html):
    data = json.loads(html)
    if data and 'data' in data.keys():
        for item in data.get('data'):
            yield item.get('article_url')

情景二：

如果要爬取的是这个url是在html中直接提取，那么需要先转换成pyquery可以识别的格式，再进行提取：

代码参考如下：

def get_url(html):  # 去获取文章的url
    doc = pq(html)
    items = doc('li').items()
    for item in items:
        article_urls = item('div.txt-box > h3 > a').attr('href')
        yield article_urls