1.简单的爬虫-优快云博客

本文链接：https://blog.youkuaiyun.com/apple_56973763/article/details/145258680

1.数据在哪里？

在页面源码里
1. 直接获取数据
不在页面源码里
1. 找到真正获取数据的URL，再获取数据

2.requests模块

安装

pip install requests
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests

抓网站文字数据

import requests

url = "https://gaze.run/"
header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3",
}

resp = requests.get(url)

# 检查响应状态码
if resp.status_code == 200:
    # 检查响应内容是否包含特定字符串
    if "斗破苍穹" in resp.text:
        print("Website is up!")
else:
    print("Website is down!")

抓网站图片、视频、音频

import requests

url = "https://img2.doubanio.com/view/photo/s_ratio_poster/public/p2578474613.jpg"
resp = requests.get(url)
file_name = url.split("/")[-1]
with open(file_name, mode="wb") as f:
    f.write(resp.content)  # resp.content得到的是bytes(字节)

知识点汇总
1. 请求
  1. requests.get(),发送get请求，请求的参数可以放在url里面，也可以传递给params
  2. requestes.post(),发送post请求，请求参数放在字典里，再传递给data
2. 响应
  1. resp.text接收文本
  2. resp.json()接收json字符串
  3. resp.content接收字节