参考文献:W3school | Ajax、Python3网络爬虫开发实战 (水平有限,尽请指导)
本文主要帮助读者了解什么是Ajax以及如何分析和抓取Ajax请求
1. 什么是Ajax?
Ajax不是一门编程语言 ,是利用Javascript在保证页面不被刷新、页面链接不被改变的情况下与服务器进行交换数据并更新部分网页的技术。
实例:在微博中,我们通常会遇到下图所示情况,这就是通过Ajax获取新数据并呈现的过程*(出于版权意识,这里以自己微博为例)。*
2. 爬取基本原理
简单分为3步:(1)发送请求;(2)解析内容;(3)渲染网页。
(1) 发送请求
Ajax由Javascript实现,下面代码是Javascript对Ajax底层的实现,实际上就是新建了XMLHttpRequest对象,然后调用onreadystatechange属性设置了监听,然后调用open()和send()方法向服务器发送请求。
var xmlhttp;
if(window.XMLHttpRequest){
xmlhttp = new XMLHttpRequest();
}
else{
xmlhttp = new ActiveXObject("Microsoft.XMLHTTP");
}
xmlhttp.onreadystatechange = function(){
if(xmlhttp.readyState == 4 && xmlhttp.status == 200){
document.getElementById("myDiv").innerHTML = xmlhttp.respomseText;
}
}
xmlhttp.open("POST","/ajax/",true);
xmlhttp.send();
(2) 解析内容
得到响应之后(状态码为200),onreadystatechange属性对应的方法会被触发,利用xmlhttp的responseText属性获取到响应内容。返回内容可能是HTML也可能是json格式,需要进一步处理。
(3) 渲染网页
通过document.getElementById().innerHTML操作,可对某个元素的源代码进行更改,使得网页显示的内容发生改变。
3. Ajax分析方法
借助浏览器的开发者工具(这里以chrome浏览器为例),打开微博链接https://m.weibo.cn/u/5487995090,右键选择“检查”选项,在Elements选项中查看网页源代码(右侧为节点样式),切换到Network选项卡,选择XHR筛选并刷新网页,获得页面加载过程浏览器与服务器之间发送请求和接受响应的所有记录,如下图所示。
在右侧中,有一个信息为X-Requested-With:XMLHttpRequest,这就标记了此请求是Ajax请求。点击Preview可看到响应内容,如昵称、简介、微博内容等等。Javascript在接收到这些数据之后,再执行相应的渲染方法,整个页面渲染出来。
4. Ajax结果提取
以上图为例,选择一个请求,可以发现,这是一个GET类型请求,请求的参数有多个,比较其他请求,可以发现,只有since_id在变化,type、value、containerid均保持不变。
分析响应:观察响应内容,如图所示,这个内容是json格式的,里面有个字段mblog,里面包含的正是微博的一些信息,比如点赞数目,评论书目,转发书目,发布时间,微博正文等等。我们所做的就是请求一个接口,获取微博信息。
准备工作:Python库urllib、request、pyquery安装 (相关安装教程可自行查找)
#在请求时,since_id是可变参数,将它作为方法的参数传递进来
import requests
from urllib.parse import urlencode
base_url = 'https://m.weibo.cn/api/container/getIndex?'
headers = {
'Host': 'm.weibo.cn',
'Referer': 'https://m.weibo.cn/u/5487995090',
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
'X-Requested-With': 'XMLHttpRequest',
}
def get_since_id(since_id):
params = {
'type': 'uid',
'value': '5487995090',
'containerid': '1076035487995090',
'since_id': since_id
}
url = base_url + urlencode(params)
try:
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.json(), since_id
except requests.ConnectionError as e:
print('Error', e.args)
【代码解读】这里定义base_url来表示请求的URL的前半部分,接下来,构造参数字典,其中type、value和containerid是固定参数,since_id是可变参数。利用params与base_url合并形成新的URL。接着,用requests请求这个链接,加入headers参数,判断响应状态码,如果是200,则直接调用json()方法将内容解析为JSON返回,否则不返回任何信息。若出现异常,捕获并输出异常信息。
我们继续定义一个解析方法 parse_since_id()实现从结果中提取想要的信息:
先遍历cards,然后获取mblog中的各个信息,赋值为一个新的字典返回。代码如下:
from pyquery import PyQuery as pq
def parse_since_id(json, since_id: int):
if json:
items = json.get('data').get('cards')
for index, item in enumerate(items):
if since_id == 4299320498536413 and index == 1:
continue
else:
item = item.get('mblog', {})
weibo = {}
weibo['id'] = item.get('id')
weibo['text'] = pq(item.get('text')).text()
weibo['attitudes'] = item.get('attitudes_count')
weibo['comments'] = item.get('comments_count')
weibo['reposts'] = item.get('reposts_count')
yield weibo
这里我们借助pyquery将正文中的HTML标签去掉。
最后,遍历一下since_id,将提取到的结果打印输出就大功告成了!
if __name__ == '__main__':
for since_id in range(3890275438766022,4299320498536413):
json = get_since_id(since_id)
results = parse_since_id(*json)
for result in results:
print(result)
运行结果如下:
另外,还可以将数据保存到MongoDB数据库,代码如下:
from pymongo import MongoClient
client = MongoClient()
db = client['weibo']
collection = db['weibo']
max_page = 10
def save_to_mongo(result):
if collection.insert(result):
print('Saved to Mongo')
再将__name__ =='main’方法修改:
if __name__ == '__main__':
for since_id in range(3890275438766022,4299320498536413):
json = get_since_id(since_id)
results = parse_since_id(*json)
for result in results:
print(result)
save_to_mongo(result)
学习永不止步,感谢阅读~
下节内容为 以今日头条为例,爬取Ajax图片并存储在文件夹中