爬虫---学习笔记

最新推荐文章于 2024-12-01 08:38:11 发布

原创最新推荐文章于 2024-12-01 08:38:11 发布 · 651 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #学习 #笔记 #python

文章介绍了如何使用Python的requests库进行网络请求，包括设置URL、获取响应数据（文本和二进制）、处理编码问题、请求头定制以及下载非文本文件。

# import requests     # 导入requests第三方库，用于发起网络请求
# url = 'https://www.baidu.com/'     # 定义需要请求的网址链接
# response = requests.get(url)     # 使用requests库发起网络请求，并接收服务器所响应的数据
# print("响应数据为：", response)    # 200是状态码，代表数据请求响应成功
# response.encoding = 'utf-8'     # 如果响应的文本中出现了乱码，就手动指定响应数据的编码格式
# print("响应数据为：", response.text)      # 将响应的数据信息以文本的方式打印出来
# print("响应数据为：", response.content.decode('utf-8'))   # 将响应的数据信息以文本的方式打印出来，并指定编码格式
# print("状态码数据为：", response.status_code)      # 将响应的状态码信息打印出来
# print("请求头数据为：", response.request.headers)      #将响应的请求头信息打印
''' ---------------------------------------------------------------------------------- '''

# import requests
# url = 'https://upload.mnw.cn/2024/0119/1705636185333.jpg'
# resp = requests.get(url)
# name = '碎月剑心'
# # 如果请求的是除文本以外的文件数据，那么是不需要指定编码格式的
# # 当响应字节数据后，一般会保存成文件
# with open(f'{name}.jpg', 'wb') as file:  # 当响应的数据以二进制提取出来，并写入到图片文件中
#     file.write(resp.content)
# file.close()
''' ---------------------------------------------------------------------------------- '''

# import requests
# url = 'https://www.baidu.com/'
# response = requests.get(url)
# response.encoding = 'utf-8'  # 指定响应的数据以utf-8去解码
# with open('baidu.html', 'w', encoding='utf-8') as file:
#     file.write(response.text)
# with open('baidu.html', 'wb') as f:
#     f.write(response.content)
''' ---------------------------------------------------------------------------------- '''

# import requests  # 导入请求库
#
# headers = {'User-Agent':  # 在请求头中定义用户代理
#                'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'}
# url = 'https://www.baidu.com/'  # 定义网络请求的网址
# response = requests.get(url, headers=headers)  # 发起网络请求并获取响应
# print(response.request.headers)
# with open('baidu.html', 'wb') as file:
#     file.write(response.content)
''' ---------------------------------------------------------------------------------- '''

# import requests
# from fake_useragent import FakeUserAgent
# random_user_agent = FakeUserAgent().random
# # print(random_user_agent)
# headers = {'User-Agent': random_user_agent}
# url = 'https://www.baidu.com/'
# response = requests.get(url, headers=headers)
# print(response.request.headers)
# with open('baidu.html', 'wb') as file:
#     file.write(response.content)