1. 使用 requests 向https://www.baidu.com/发出一个请求并输出结果
if __name__ == '__main__':
url = 'https://www.baidu.com'
r = requests.get(url)
r.encoding = r.apparent_encoding
print(r.status_code)
with open('baidu.txt', 'w') as f:
f.write(r.text)
输出的状态结果:
获取到的内容:
可以知道使用request获取到的内容是该网页的html的内容
2.请求头
某些时候使用python进行爬取网站的数据,可能会被网站阻止,此时需要添加请求头来进行模拟伪装。
添加请求头只需要给headers
传递一个dict参数即可
如:
url = 'xxxxx'
headers = 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11'
r = request(url, headers = headers)