爬虫四步曲大神一步一步来教你，使用python抓取网页数据并储存

最新推荐文章于 2024-09-30 11:02:22 发布

原创

最新推荐文章于 2024-09-30 11:02:22 发布 · 6.5k 阅读

212 ·

CC 4.0 BY-SA版权

文章标签：

#python #经验分享 #恰饭 #程序人生

本文通过实例详细介绍了Python爬虫的基本流程，包括请求网页、解析页面、提取内容和存储数据。以爬取视频热搜榜单为例，讲解了如何使用requests和BeautifulSoup库进行网页抓取和解析，最终将数据保存至本地。

爬虫是Python的一个重要的应用，使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据，本文将基于爬取B站视频热搜榜单数据并存储为例，详细介绍Python爬虫的基本流程。如果你还在入门爬虫阶段或者不清楚爬虫的具体工作流程，那么应该仔细阅读本文！

第一步：尝试请求

首先进入b站首页，点击排行榜并复制链接

https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950616765546162.3

现在启动Jupyter notebook，并运行以下代码

import requests

url = 'https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950616765546162.3'
res = requests.get('url')
print(res.status_code)
#200

在上面的代码中，我们完成了下面三件事

（1），导入requests

（2），使用get方法构造请求

（3），使用status_code获取网页状态码

可以看到返回值是200，表示服务器正常响应，这意味着我们可以继续进行。

码字不易废话两句：有需要学习资料的或者有技术问题交流 “点击” 即可

第二步：解析页面

在上一步我们通过requests向网站请求数据后，成功得到一个包含服务器资源的Response对象，现在我们可以使用.text来查看其内容

在这里插入图片描述

可以看到返回一个字符串，里面有我们需要的热榜视频数据，但是直接从字符串中提取内容是比较复杂且低效的，因此我们需要对其进行解析，将字符串转换为网页结构化数据，这样可以很方便地查找HTML标签以及其中的属性和内容。

在Python中解析网页的方法有很多，可以使用正则表达式，也可以使用BeautifulSoup、pyquery或lxml，本文将基于BeautifulSoup进行讲解.

Beautiful Soup是一个可以从HTML或XML文件中提取数据的第三方库.安装也很简单，使用pip install bs4安装即可，下面让我们用一个简单的例子说明它是怎样工作的
from bs4 import BeautifulSoup

from bs4 import BeautifulSoup

page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')
title = soup.title.text 
print(title)
# 热门视频排行榜 - 哔哩哔哩 (゜-゜)つロ 干杯~-bilibili