爬虫之requests的使用

最新推荐文章于 2025-09-08 17:56:18 发布

原创最新推荐文章于 2025-09-08 17:56:18 发布 · 1.1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #python #http

爬虫专栏收录该内容

6 篇文章

订阅专栏

前言

requests是一个很实用的Python HTTP客户端库，编写爬虫和测试服务器响应数据时经常会用到，Requests是Python语言的第三方的库，专门用于发送HTTP请求。基于 urllib，采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便，可以节约我们大量的工作，完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的，所以它比 urllib 更加 Pythoner。

Requests库的使用：

requests.requests()

requests.get(‘https://github.com/timeline.json’) #GET请求

requests.post(“http://httpbin.org/post”) #POST请求

requests.put(“http://httpbin.org/put”) #PUT请求（提交修改全部的数据）

requests.delete(“http://httpbin.org/delete”) #DELETE请求

requests.head(“http://httpbin.org/get”) #HEAD请求

requests.patch(“http://httpbin.org/get”) #PATCH请求（提交修改部分数据）

安装Requests库：

pip install requests

或者可以用清华镜像：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests

示例一：爬取B站主页面

import requests
url = 'https://www.bilibili.com/'
resp = requests.get(url)
print(resp)
print(resp.text) #得到页面源代码

大致结果是这样的：

示例二：爬取百度翻译结果

运用post()方法

requests.post(url, data=None, json=None, **kwargs)

url: 拟获取页面的url链接

data: 字典，字节序列或文件，Requests的内容

json: JSON格式的数据，Requests的内容

import requests
url = "https://fanyi.baidu.com/sug"
requests.post(url)
s = input(":")
dat = {
    "kw":s
}
resp = requests.post(url, data=dat)
print(resp.json()) #将返回的内容直接返回为json

输入dog，回车

实例三：抓取豆瓣电影排名

import requests


url = "https://movie.douban.com/j/chart/top_list"

#
param = {
    'type': '24',
    'interval_id': '100:90',
    'action': '',
    'start': 0,
    "limit": 20,
}
headers = {
   "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Mobile Safari/537.36 Edg/96.0.1054.43"
}#防反爬
resp = requests.get(url=url, params=param, headers=headers)

# print(resp.request.url) 打印url
print(resp.json())