百度翻译结果爬取

加强版爬虫

在百度翻译搜索框中输入关键字,得到响应页面的局部文本数据,即关键字翻译结果。
要实现这样的功能本来是需要解析数据才可以得到,现在我们换一种方法,首先分析百度翻译的页面,每搜索一个关键字就进行一次局部刷新,实现页面局部刷新,就要用到AJAX请求。输入的关键字是python,打开对应网页的开发者模式,先找到1选项卡XHR,然后找到3框数据包查看,发现是post请求,服务器端响应回客户端的数据类型是json格式,并且该请求携带参数,对应2可查看携带参数是否为python,那么它就是我们要找的AJAX数据请求包。

在这里插入图片描述

在这里插入图片描述

上代码

import requests
import json
# 此时的url需要从抓包工具里面捕获,不能直接复制搜索框里的域名
post_url='https://fanyi.baidu.com/sug'
# 进行UA伪装
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36'
}
word=input('enter a word:')
# data相当于前一个案例的params参数,阿贾克斯请求数据包,该数据包发起的POST请求携带了参数,就是我们看到的2框
data={
    'kw':word
}
response=requests.post(url=post_url,data=data,headers=headers)
# 获取响应数据:json()方法返回的是obj,如果确认响应数据是json()类型,才可以使用json()方法进行对象返回
dic_obj=response.json()
filename=word+'.json'
fp=open(filename,'w',encoding='utf-8')
# 拿到的json串是中文的,所以要在dump方法中加入ensure_ascii=False参数
json.dump(dic_obj,fp=fp,ensure_ascii=False)
print('over')

运行结果

在控制台输入关键字python,得到翻译结果

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值