简易有道翻译爬虫-优快云博客

本文介绍了一个使用Python的urllib库实现的简易有道翻译爬虫。该爬虫通过POST请求发送待翻译文本，并接收JSON格式的翻译结果。

这一篇讲一下不带框架下，直接使用urllib写的爬虫简单例子，我们去干一下有道翻译，有道翻译现在有api了，所以他对网页上直接翻译进行了一些反爬虫但是没关系，还是那句经典，只要网站能上，我们就能爬。代码比较简单，我都做了注释了，注意一点，有道翻译，我们需要发送需要翻译的字段，所以，我使用的是post方法，我注释里会标注，怎么直接用get方法

# -----------------------
# __Author : tyran
# __Date : 17-11-28
# -----------------------

from urllib import request, parse
import json


def youdao_translate(value):
    agent = {
        'User-Agent':  # 这一行很重要，这个是告诉服务器我们是一个浏览器，如果默认的话，一看就能看出是爬虫
            'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}
    request_data = {  # 请求的表单格式，如果格式不对，会请求失败的
        "i": value,  # 需要翻译的值
        "from": "AUTO",
        "to ": " AUTO",
        "smartresult": "dict",
        "client": 'fanyideskweb',
        "doctype": "json",
        "version": "2.1",
        "keyfrom": "fanyi.web",
        "action": "FY_BY_ENTER",
        "typoResult": "false"}  # 表单数据会有一个出现gzip压缩的键值，最好是不要写，虽然也能通过gzip的模块去解压
    # 如果之前有看过别的有道爬虫的事例，可能会要求在这里写一个salt值，不然一直都返回error
    # 其实关键就在下面url中，原来通过抓包软件调用的url，在translate后面会有_o去掉就可以了，也不需要验证计算了
    url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&sessionFrom='

    data = parse.urlencode(request_data).encode(encoding='utf-8')  # post的data需要转成字节码
    req = request.Request(url=url, data=data, headers=agent)  # 生成一个请求，如果有data参数，他就是一个POST的请求，没有就是GET
    res = request.urlopen(req).read().decode('utf-8')  # 发送request，然后读取内容（字节码），再解码
    res_dict = json.loads(res)  # 因为收到的是json数据，所以通过loads直接读一下
    return res_dict['translateResult'][0][0]['tgt']


if __name__ == '__main__':
    print(youdao_translate(input('请输入要翻译的内容:')))