2021年3月26日在Boss直聘和广州XXXX数据公司沟通了一下,想面试那家公司的爬虫实习生,那家公司给了我如下一份面试题。希望半天时间完成。
试题完成结果不太理想。很遗憾》》》》》我的解题思路不太符合贵公司要求
在这里分享出来,主要是与大家讨论一下,集思广益,看看大家完成题目的思路和方法是如何的?
以下是我的解答,有一题未能完成,希望大家帮忙解决。
问题1 :
User-Agent是Http协议中的一部分,属于头域的组成部分,User Agent也简称UA。用较为普通的一点来说:是一种向访问网站提供你所使用的浏览器类型、操作系统及版本、CPU 类型、浏览器渲染引擎、浏览器语言、浏览器插件等信息的标识。请写一段随机ua访问网页的代码
import requests
def 优快云 ():
url = "https://blog.youkuaiyun.com"
headers ={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'}
response = requests.get(url =url ,headers=headers)
print(response)
res = response.text
print( res)
优快云()
问题2:写出https://www.conab.gov.br/info-agro/safras/progresso-de-safra 这个页面
所有a标签title属性含有pdf或者xlsx的a标签的xpath规则。
上面图片只获得了每个excel或pdf文档的下载地址,并未将该页面的所有文件下载保存到本地文件夹中,代码有待改进
最初代码如下:
import requests
from lxml import etree
import time
de