学爬虫第一课

最新推荐文章于 2024-06-30 18:20:45 发布

原创最新推荐文章于 2024-06-30 18:20:45 发布 · 158 阅读

0 ·

CC 4.0 BY-SA版权

两个实例

1.爬虫初尝试-抓猫

基本原理很简单

使用urllib导入网页
写到本地

代码如下：

import urllib.request

contentL = input("请输入要下载的长度:")
contentW = input("请输入要下载的宽度:")

response = urllib.request.urlopen("http://placekitten.com/g/"+ contentL +"/" +contentW)
cat_img = response.read()

 with open("cat"+ contentL +"_" +contentW+".jpg","wb") as f:
    f.write(cat_img)

2.利用有道翻译实现文本翻译

原理如下：

通过网页审查元素，找到在翻译过程中本地电脑和服务器之间交换（Network中的header文件中），找到提交的【url】和【data】，备用
代码原理
2.1 导入的urllib.request、import urllib.parse、import json分别实现三个功能：访问互联网、对【data】文件进行格式转换、对返回的文本美化

代码如下：

import urllib.request
import urllib.parse
import json

content = input("请输入要翻译的内容：")

url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"
data={}
data["i"] = content
data["from"]="AUTO"
data["to"]="AUTO"
data["smartresult"] = "dict"
data["client"] = "fanyideskweb"
data["salt"]="15624322689236"
data["sign"] = "95a82b8e1faeaba3e17b14d65d8139a0"
data["ts"]="1562432268923"
data["bv"] = "65db4e7e1a2a0ee160ea1e66436196cd"
data["doctype"] = "json"
data["version"]="2.1"
data["keyfrom"]="fanyi.web"
data["action"] =  "FY_BY_CLICKBUTTION"
data = urllib.parse.urlencode(data).encode("utf-8")

response =urllib.request.urlopen(url,data)
html=response.read().decode("utf-8")

target = json.loads(html)

print(target["translateResult"][0][0]["tgt"])