这一篇讲一下不带框架下,直接使用urllib写的爬虫简单例子,我们去干一下有道翻译,有道翻译现在有api了,所以他对网页上直接翻译进行了一些反爬虫但是没关系,还是那句经典,只要网站能上,我们就能爬。代码比较简单,我都做了注释了,注意一点,有道翻译,我们需要发送需要翻译的字段,所以,我使用的是post方法,我注释里会标注,怎么直接用get方法
# -----------------------
# __Author : tyran
# __Date : 17-11-28
# -----------------------
from urllib import request, parse
import json
def youdao_translate(value):
agent = {
'User-Agent': # 这一行很重要,这个是告诉服务器我们是一个浏览器,如果默认的话,一看就能看出是爬虫
'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}
request_data = { # 请求的表单格式,如果格式不对,会请求失败的
"i": value, # 需要翻译的值
"from": "AUTO",
"to ": " AUTO",
"smartresult": "dict",
"client": 'fanyideskweb',
"doctype": "json",
"version": "2.1",
"keyfrom": "fanyi.web",
"action": "FY_BY_ENTER",
"typoResult": "false"} # 表单数据会有一个出现gzip压缩的键值,最好是不要写,虽然也能通过gzip的模块去解压
# 如果之前有看过别的有道爬虫的事例,可能会要求在这里写一个salt值,不然一直都返回error
# 其实关键就在下面url中,原来通过抓包软件调用的url,在translate后面会有_o去掉就可以了,也不需要验证计算了
url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&sessionFrom='
data = parse.urlencode(request_data).encode(encoding='utf-8') # post的data需要转成字节码
req = request.Request(url=url, data=data, headers=agent) # 生成一个请求,如果有data参数,他就是一个POST的请求,没有就是GET
res = request.urlopen(req).read().decode('utf-8') # 发送request,然后读取内容(字节码),再解码
res_dict = json.loads(res) # 因为收到的是json数据,所以通过loads直接读一下
return res_dict['translateResult'][0][0]['tgt']
if __name__ == '__main__':
print(youdao_translate(input('请输入要翻译的内容:')))