加强版爬虫
在百度翻译搜索框中输入关键字,得到响应页面的局部文本数据,即关键字翻译结果。
要实现这样的功能本来是需要解析数据才可以得到,现在我们换一种方法,首先分析百度翻译的页面,每搜索一个关键字就进行一次局部刷新,实现页面局部刷新,就要用到AJAX请求。输入的关键字是python,打开对应网页的开发者模式,先找到1选项卡XHR,然后找到3框数据包查看,发现是post请求,服务器端响应回客户端的数据类型是json格式,并且该请求携带参数,对应2可查看携带参数是否为python,那么它就是我们要找的AJAX数据请求包。
上代码
import requests
import json
# 此时的url需要从抓包工具里面捕获,不能直接复制搜索框里的域名
post_url='https://fanyi.baidu.com/sug'
# 进行UA伪装
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36'
}
word=input('enter a word:')
# data相当于前一个案例的params参数,阿贾克斯请求数据包,该数据包发起的POST请求携带了参数,就是我们看到的2框
data={
'kw':word
}
response=requests.post(url=post_url,data=data,headers=headers)
# 获取响应数据:json()方法返回的是obj,如果确认响应数据是json()类型,才可以使用json()方法进行对象返回
dic_obj=response.json()
filename=word+'.json'
fp=open(filename,'w',encoding='utf-8')
# 拿到的json串是中文的,所以要在dump方法中加入ensure_ascii=False参数
json.dump(dic_obj,fp=fp,ensure_ascii=False)
print('over')
运行结果
在控制台输入关键字python,得到翻译结果