以微博为例,Ajax数据爬取

本文介绍Ajax技术原理及如何分析抓取Ajax请求,通过微博案例,展示使用Python进行网络爬虫开发,包括发送请求、解析内容和渲染网页等步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考文献:W3school | Ajax、Python3网络爬虫开发实战 水平有限,尽请指导)

本文主要帮助读者了解什么是Ajax以及如何分析和抓取Ajax请求

1. 什么是Ajax?

Ajax不是一门编程语言 ,是利用Javascript在保证页面不被刷新、页面链接不被改变的情况下与服务器进行交换数据并更新部分网页的技术。
实例:在微博中,我们通常会遇到下图所示情况,这就是通过Ajax获取新数据并呈现的过程*(出于版权意识,这里以自己微博为例)。*
图1  微博页面加载过程

2. 爬取基本原理

简单分为3步:(1)发送请求;(2)解析内容;(3)渲染网页。

(1) 发送请求

Ajax由Javascript实现,下面代码是Javascript对Ajax底层的实现,实际上就是新建了XMLHttpRequest对象,然后调用onreadystatechange属性设置了监听,然后调用open()和send()方法向服务器发送请求。

var xmlhttp;
if(window.XMLHttpRequest){
     xmlhttp = new XMLHttpRequest();
}
else{
     xmlhttp = new ActiveXObject("Microsoft.XMLHTTP");
}
     xmlhttp.onreadystatechange = function(){
       if(xmlhttp.readyState == 4 && xmlhttp.status == 200){
          document.getElementById("myDiv").innerHTML = xmlhttp.respomseText;
       }
     }
xmlhttp.open("POST","/ajax/",true);
xmlhttp.send();

(2) 解析内容

得到响应之后(状态码为200),onreadystatechange属性对应的方法会被触发,利用xmlhttp的responseText属性获取到响应内容。返回内容可能是HTML也可能是json格式,需要进一步处理。

(3) 渲染网页

通过document.getElementById().innerHTML操作,可对某个元素的源代码进行更改,使得网页显示的内容发生改变。

3. Ajax分析方法

借助浏览器的开发者工具(这里以chrome浏览器为例),打开微博链接https://m.weibo.cn/u/5487995090,右键选择“检查”选项,在Elements选项中查看网页源代码(右侧为节点样式),切换到Network选项卡,选择XHR筛选并刷新网页,获得页面加载过程浏览器与服务器之间发送请求和接受响应的所有记录,如下图所示。
图2  开发者工具 在右侧中,有一个信息为X-Requested-With:XMLHttpRequest,这就标记了此请求是Ajax请求。点击Preview可看到响应内容,如昵称、简介、微博内容等等。Javascript在接收到这些数据之后,再执行相应的渲染方法,整个页面渲染出来。

4. Ajax结果提取

以上图为例,选择一个请求,可以发现,这是一个GET类型请求,请求的参数有多个,比较其他请求,可以发现,只有since_id在变化,type、value、containerid均保持不变。
分析响应:观察响应内容,如图所示,这个内容是json格式的,里面有个字段mblog,里面包含的正是微博的一些信息,比如点赞数目,评论书目,转发书目,发布时间,微博正文等等。我们所做的就是请求一个接口,获取微博信息。

准备工作:Python库urllib、request、pyquery安装 (相关安装教程可自行查找)
#在请求时,since_id是可变参数,将它作为方法的参数传递进来
import requests
from urllib.parse import urlencode
base_url = 'https://m.weibo.cn/api/container/getIndex?'

headers = {
    'Host': 'm.weibo.cn',
    'Referer': 'https://m.weibo.cn/u/5487995090',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest',
}

def get_since_id(since_id):
    params = {
        'type': 'uid',
        'value': '5487995090',
        'containerid': '1076035487995090',
        'since_id': since_id
    }
    url = base_url + urlencode(params)
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.json(), since_id
    except requests.ConnectionError as e:
        print('Error', e.args)

【代码解读】这里定义base_url来表示请求的URL的前半部分,接下来,构造参数字典,其中type、value和containerid是固定参数,since_id是可变参数。利用params与base_url合并形成新的URL。接着,用requests请求这个链接,加入headers参数,判断响应状态码,如果是200,则直接调用json()方法将内容解析为JSON返回,否则不返回任何信息。若出现异常,捕获并输出异常信息。

我们继续定义一个解析方法 parse_since_id()实现从结果中提取想要的信息:
先遍历cards,然后获取mblog中的各个信息,赋值为一个新的字典返回。代码如下:

from pyquery import PyQuery as pq

def parse_since_id(json, since_id: int):
    if json:
        items = json.get('data').get('cards')
        for index, item in enumerate(items):
            if since_id == 4299320498536413 and index == 1:
                continue
            else:
                item = item.get('mblog', {})
                weibo = {}
                weibo['id'] = item.get('id')
                weibo['text'] = pq(item.get('text')).text()
                weibo['attitudes'] = item.get('attitudes_count')
                weibo['comments'] = item.get('comments_count')
                weibo['reposts'] = item.get('reposts_count')
                yield weibo

这里我们借助pyquery将正文中的HTML标签去掉。
最后,遍历一下since_id,将提取到的结果打印输出就大功告成了!

if __name__ == '__main__':
   for since_id in range(3890275438766022,4299320498536413):
        json = get_since_id(since_id)
        results = parse_since_id(*json)
        for result in results:
            print(result)

运行结果如下:
图3  运行截图
另外,还可以将数据保存到MongoDB数据库,代码如下:

from pymongo import MongoClient

client = MongoClient()
db = client['weibo']
collection = db['weibo']
max_page = 10

def save_to_mongo(result):
    if collection.insert(result):
        print('Saved to Mongo')

再将__name__ =='main’方法修改:

if __name__ == '__main__':
    for since_id in range(3890275438766022,4299320498536413):
        json = get_since_id(since_id)
        results = parse_since_id(*json)
        for result in results:
            print(result)
            save_to_mongo(result)
学习永不止步,感谢阅读~

下节内容为 以今日头条为例,爬取Ajax图片并存储在文件夹中

本节代码已上传至github: https://github.com/lizeyang18/Python3WebSpider-weibo

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值